<div >
<img src = "figs/ans_banner_1920x200.png" />
</div>

# Sistemas de Recomendación. Fundamentos Teóricos.

Este *cuaderno* trata sobre sistemas de recomendación. Estos sistemas, como su nombre lo indica, son técnicas y algoritmos que recomiendan o sugieren productos y/o servicios. El objetivo del *cuaderno* es que usted obtenga una visión general del mundo de los sistemas de recomendación y un resumen de  distintos tipos de recomendadores. Desarrollaremos también dos recomendadores sencillos: un recomendador sencillo y uno basado en contenido para que aprenda a reconocer las  características generales de estos sistemas, y cómo implementarlos y ejecutarlos en `Python`.

**NO** es necesario editar el archivo o hacer una entrega. Sin embargo, los ejemplos contienen celdas con código ejecutable (`en gris`), que podrá modificar  libremente. Esta puede ser una buena forma de aprender nuevas funcionalidades del *cuaderno*, o experimentar variaciones en los códigos de ejemplo.

## ¿Qué son los sistemas de recomendaciones?


Las preferencias de los individuos suelen seguir patrones que los sistemas de recomendación pueden aprovechar, por ejemplo, si hemos visto recientemente la película de Iron Man, y la disfrutamos, es muy probable que también disfrutemos la película de Thor. ¿Cómo pueden entonces los usuarios encontrar nuevo contenido atractivo? 

Una forma es que los usuarios busquen por si mismo el contenido. Otra forma, es utilizar sistemas de recomendaciones que sugieran elementos que los usuarios podrían no haber pensado en buscar por su cuenta. Por ejemplo, cuando compramos en línea es común ver sugerencias de otros productos bajo títulos como "Comprados juntos habitualmente" o "Los clientes que compraron X también compraron Y". 

Los sistemas de recomendación entonces encuentran patrones que son utilizados para predecir qué otros productos podrían gustarnos y generar sugerencias, de forma tal que  los usuarios encuentren contenido atractivo en un gran corpus. Estos sistemas son muy exitosos, por ejemplo según un estudio del 2013 de [McKinsey](https://www.mckinsey.com/industries/retail/our-insights/how-retailers-can-keep-up-with-consumers), el 35% de los artículos comprados en Amazon surgen de estos sistemas de recomendación, y por lo tanto vale la pena estudiarlos cuidadosamente.

### Estructura de los sistemas de recomendación

Los sistemas de recomendación constan principalmente de 2 componentes:

   - Generación de candidatos: En esta  etapa, el sistema parte de un corpus potencialmente enorme y genera un subconjunto mucho más pequeño de candidatos a recomendar. Por ejemplo, el generador de recomendaciones de YouTube reduce miles de millones de videos cargados en su plataforma a cientos o miles de potenciales candidatos. El modelo necesita entonces evaluar consultas rápidamente dado el enorme tamaño del corpus. (Si te interesa saber más cómo funciona Youtube, te invito a que leas el artículo de Covington et al. (2016))
   - Ranking o Puntuación: En esta etapa se elige un modelo que clasifica a los candidatos para seleccionar el conjunto de candidatos que va a mostrar al usuario.
   
   
El orden de estas etapas no sigue un orden establecido y pueden intercambiarse y hasta fusionarse. También es importante mencionar que algunos sistemas de recomendación incorporan una etapa de reclasificación donde se suman restricciones adicionales antes de mostrar los candidatos finales. Por ejemplo, se eliminan candidatos que al usuario no le gustaron explícitamente o se aumenta la puntuación de contenido más nuevo. La reclasificación también se suele utilizar para garantizar que los contenidos sugeridos sean diversos, nuevos y/o populares.


## Tipos de sistemas de recomendación


Existen distintos tipos de sistemas de recomendación, y tanto su utilización como su éxito dependen de la cantidad y calidad de datos que se dispongan. En esta sección, haremos una descripción general de los sistemas de recomendación  más populares en uso. Hay que tener en cuenta que esta lista no es exhaustiva y que nuevos métodos continuamente están apareciendo y otros caen en deshuso. A continuación y en *cuadernos* subsiguientes veremos detalles sobre los mismos y su implementación en `Python`.

### Recomendadores basados en conocimiento

Los recomendadores basados en  conocimiento utilizan principalmente artículos que rara vez se usan o compran. Si los artículos son raramente comprados es muy difícil tener información previa a partir de la cuál de ellos se puede generar una recomendación. La venta de bienes raíces es un ejemplo de esto. La compra de una casa suele ser a menudo una compra de una vez en la vida, no se tiene por lo tanto información adicional para generar recomendaciones.

En casos como este, el sistema de recomendación funciona similar a lo que haría un ser humano. Le pregunta al usuario sobre preferencias y detalles; y a partir de estos, genera recomendaciones. Volviendo al ejemplo anterior, el sistema podría preguntar sobre qué tipo de propiedad prefiere, qué barrios, cuál es su presupuesto, etc.; y a partir de estos ofrecer una recomendación.

### Filtrado colaborativo

El filtrado colaborativo aprovecha el poder de la colaboración para generar recomendaciones. Los filtros colaborativos son uno de los sistemas de recomendación más populares utilizados en la industria y han tenido un gran éxito para empresas como Amazon. En términos generales, el filtrado colaborativo puede clasificarse en dos tipos: 

1. **Filtrado basado en ítems**: La idea de este tipo de filtrado es que si un grupo de personas ha calificado dos elementos de manera similar, entonces los dos elementos deben ser similares.


<div  style="max-width: 60%;">
<img src = "figs/Homero.png"/>
</div>

Por lo tanto, si a una persona le gusta un artículo en particular, es probable que también esté interesada en el otro artículo. Como se puede ver en la figura siguiente esta es otra de las estrategias que utiliza Amazon: recomienda productos a partir del historial de navegación y las compras, y con esta información genera sugerencias:

<div  style="max-width: 80%;">
<img src = "figs/item_jeans.png"/>
</div>

2. **Filtrado basado en usuarios**: La idea principal detrás del filtrado basado en el usuario es que si somos capaces de encontrar usuarios que compraron artículos similares y les gustaron en el pasado, es más probable que también compren artículos similares en el futuro.

<div  style="max-width: 80%;">
<img src = "figs/aguacate.png"/>
</div>

Por lo tanto, estos modelos recomiendan artículos a un usuario que a otros usuarios similares también le han gustado. Amazon, por ejemplo, usa este tipo de método para generar recomendaciones. En la figura a continuación nos aparece la frase "Los clientes que compraron este producto también compraron" y a continuación aparecen las sugerencias:

<div  style="max-width: 80%;">
<img src = "figs/usuario_libros.png"/>
</div>


Si bien este tipo de sistemas son muy poderosos, requieren que contemos con datos de actividad pasada. Ciertas empresas, como Amazon, pueden aprovechar ya que tienen acceso a información sobre compras de millones de usuarios. Esto a su vez puede ser una desventaja, imagine que iniciamos un nuevo sitio web para vender productos. Para poder generar un buen sistema de filtrado colaborativo necesitamos datos sobre compras y usuarios, los cuales no están disponibles al inicio y por lo tanto resulta muy difícil construir este tipo de sistemas en esta etapa de la vida de un negocio. Este problema suele conocerse como un problema de "arranque frio" o "cold start".

### Filtrado basado en contenido


A diferencia de los filtros colaborativos, los sistemas basados en contenido no requieren datos relacionados a otros individuos u actividades pasadas.  Por el contrario estos, brindan recomendaciones basadas en el perfil del usuario y los metadatos que se tiene sobre elementos particulares:


<div  style="max-width: 40%;">
<img src = "figs/homero_movies.png"/>
</div>




Netflix es un buen ejemplo de este tipo de sistemas como lo muestra la figura a continuación. Basado en nuestro perfil, cómo calificamos la película y metadatos de la película nos genera sugerencias.


<div  style="max-width: 40%;">
<img src = "figs/netflix.png"/>
</div>


En este caso habrá menos diversidad en las recomendaciones, ya que por ejemplo si sólo usamos este tipo de sistemas puede ser que potencialmente nos gusten dramas británicos, pero nunca lo sabremos, a menos que decidamos probarlo de forma autónoma. 


### Recomendadores híbridos

Surge así otro tipo de sistema, los recomendadores híbridos. Como sugiere el nombre, los recomendadores híbridos son sistemas que combinan varios tipos de modelos de recomendación, superando así las deficiencias de cada uno. 
Por ejemplo, en el caso de Netflix que vimos anteriormente, la primera vez que usamos la plataforma, entra en juego un sistema basado en contenido: que pregunta explícitamente por preferencias y usa metadatos del producto mismo. Esto nos permite superar el problema de los sistemas colaborativos. A medida que utilizamos la plataforma, comienza a operar el filtrado colaborativo, que permite refinar y mejorar sugerencias; sugeriendo productos que tal vez, en ausencia de la recomendación no lo hubiesemos elegido.


## Resumen y primera aproximación en `Python`

En este *cuaderno*, obtuvimos una visión general del mundo de los sistemas de recomendación y un resumen de  distintos tipos de recomendadores. Sin embargo, antes de terminarlo implementaremos dos sistemas de recomendación: uno simple y otro basado en conocimiento. Estos ilustrarán de manera sencilla como funcionan los sistemas en la práctica y nos permitirán tener una mejor base para cuando busquemos aboradar sistemas más complejos en *cuadernos* futuros. 

###  Implementaciones en  `Python`

Para ilustrar el funcionamiento de estos recomendadores simples vamos a utilizar una versión simplificada y traducida de la base de datos de películas: [MovieLens](https://grouplens.org/datasets/movielens/latest/) provista abiertamente por [grouplens](https://grouplens.org/about/what-is-grouplens/) para: **"avanzar la teoría y la práctica de la computación social mediante la construcción y la comprensión de sistemas *(de recomendación)* utilizados por personas reales".**

Carguemos entonces las librerías y los datos:


In [1]:
# Cargamos las librerías a utilizar
import pandas as pd
import numpy as np

# Cargamos y visualizamos las primeras filas de los datos
df = pd.read_csv('data/metadata_limpia.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,titulo,duracion,voto_promedio,numero_votos,ano,genero
0,1,Toy Story,81,7.7,5415,1995,animacion
1,2,Toy Story,81,7.7,5415,1995,comedia
2,3,Jumanji,104,6.9,2413,1995,adventura
3,4,Jumanji,104,6.9,2413,1995,fantasia
4,5,Grumpier Old Men,101,6.5,92,1995,romance


La base contiene el título, la duración (en minutos), el voto promedio y el número de votos que obtuvo, el año de estreno, y el género. Note que si una película tiene más de un género aparece repetida. Por ejemplo, Toy Story, aparece bajo el género de animación y de comedia.

Para esta aplicación omitiremos el género y por lo tanto nos quedaremos con sólo una entrada por película (los invito a que prueben si los resultados cambian o no al no omitir las entradas repetidas):

In [2]:
df_nodup = df.drop_duplicates(subset ="titulo")
df_nodup

Unnamed: 0.1,Unnamed: 0,titulo,duracion,voto_promedio,numero_votos,ano,genero
0,1,Toy Story,81,7.7,5415,1995,animacion
2,3,Jumanji,104,6.9,2413,1995,adventura
4,5,Grumpier Old Men,101,6.5,92,1995,romance
6,7,Waiting to Exhale,127,6.1,34,1995,comedia
9,10,Father of the Bride Part II,106,5.7,173,1995,comedia
...,...,...,...,...,...,...,...
64928,64929,Deep Hearts,58,0.0,0,1981,documental
64933,64934,Shadow of the Blair Witch,45,7.0,2,2000,misterio
64935,64936,The Burkittsville 7,30,7.0,1,2000,terror
64936,64937,Caged Heat 3000,85,3.5,1,1995,ciencia ficcion


La columna `voto_promedio` es el promedio de votos que dieron los usuarios a la película. Este voto toma valores  entre 1 y 10, siendo 10 el voto más alto. La columna `numero_votos` es el número de votos que recibió la película. Este sirve también como una proxy de cuanta gente vió la película.

Estamos ahora en condiciones de construir nuestro primer recomendador simple.

#### Un recomendador simple 

Para construir nuestro primer recomendador simple vamos a seguir los siguientes pasos: 

   1. Decidir cuáles son los atributos deseados de la película que queremos recomendar. Esto nos va a permitir reducir el espacio de candidatos potenciales.
   2. Elegir una métrica que nos permita calificar y rankear las películas y calcularla para nuestro subconjunto.
   3. Recomendar películas basadas en esta métrica en orden decreciente de sus puntajes.


La parte crucial de este recomendador es el segundo punto. Generar una métrica que nos permita ordenar las películas. La elección de esta es arbitraria, sin embargo es deseable que esta métrica sea robusta. Por ejemplo, podríamos usar el voto promedio. Sin embargo, sabemos que la media no es una medida robusta. Para illustrarlo, imaginemos que tenemos una película con calificación promedio de 9 por 100.000 usuarios, esta se colocará debajo de una película con una calificación promedio de 9,5 por 100 usuarios. Esto no es deseable, ya que es muy probable que una película vista y calificada sólo por 100 personas atienda a un nicho muy específico y puede que no atraiga tanto al individuo promedio como la primera. Otra de las desventajas de la media es que no es robusta a la micronumerosidad, es decir, que tenga pocos votos. A medida que el número de votos aumente, es probable que este se acerque al verdadero valor poblacional. Es decir, una película calificada con 10/10 por cinco usuarios no significa necesariamente que sea una buena película.

Por lo tanto, necesitamos una métrica que pueda sobreponerse a estas falencias, de forma tal que, por ejemplo, rankee una película de gran éxito con una calificación de 8 por 100.000 usuarios sobre una película con una calificación de 9 por 100 usuarios.

En este *cuaderno* vamos a utilizar la métrica propuesta por [IMDB](https://www.imdb.com/chart/top/?ref_=nv_mv_250) para rankear las mejores 250 películas. Esta métrica sigue la siguiente fórmula:

$$
Score = \left( \frac{v}{v+m}\times R + \frac{v}{v+m}\times C \right)
$$


donde: 

   - $v$ es el número de votos.
   - $m$ es el mínimo número de votos que tiene que haber recibido una pelicula para que figure en el ranking.
   - $R$ es el voto promedio de la película
   - $C$ es el voto promedio de *todas* la peliculas en la base.
    
##### Creando el recomendador

Tenemos entonces todos los ingredientes para crear nuestro recomendador. Comencemos calculando el $Score$. Notemos que tiene como parámetro $m$. En nuestra aplicación lo fijaremos en el percentil 95 (los invito a que lo cambien y prueben cómo cambian las recomendaciones). 

Calculamos entonces el parámetro $m$:

In [3]:
m = df_nodup['numero_votos'].quantile(0.95)
m

590.0

Con esto podemos ver  cuáles son las que superaron el mínimo número de votos que tiene que haber recibido una película para que figure en el ranking:

In [4]:
q_movies = df_nodup[df_nodup['numero_votos'] >= m]

q_movies.head()

Unnamed: 0.1,Unnamed: 0,titulo,duracion,voto_promedio,numero_votos,ano,genero
0,1,Toy Story,81,7.7,5415,1995,animacion
2,3,Jumanji,104,6.9,2413,1995,adventura
10,11,Heat,170,7.7,1886,1995,accion
21,22,GoldenEye,130,6.6,1194,1995,adventura
34,35,Casino,178,7.8,1343,1995,drama


In [5]:
q_movies.shape

(1627, 7)

Vemos que nos quedamos con aproximadamente el 10%, como esperábamos. Calculemos  $C$, la calificación promedio de todas las películas en el conjunto de datos:

In [6]:
C = df_nodup['voto_promedio'].mean()
C

5.725672018207382

Con esto podemos calcular entonces nuestro $Score# para cada película. Para ello crearemos una función:

In [7]:
def calc_score(x, m=m, C=C):
    v = x['numero_votos']
    R = x['voto_promedio']
    # Calcular el score
    return (v/(v+m) * R) + (m/(m+v) * C)

Y aplicaremos la función, indicando que la operación es por filas (`axis=1`): 

In [8]:
q_movies['score'] = q_movies.apply(calc_score, axis=1)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  q_movies['score'] = q_movies.apply(calc_score, axis=1)


El último paso para recomendar las películas es ordenarlas y mostrarlas al usuario:


In [9]:
# Ordenamos
q_movies = q_movies.sort_values('score', ascending=False)

# Mostramos el top 10
q_movies.head(10)

Unnamed: 0.1,Unnamed: 0,titulo,duracion,voto_promedio,numero_votos,ano,genero,score
644,645,The Shawshank Redemption,142,8.5,8358,1994,drama,8.31707
1682,1683,The Godfather,175,8.5,6024,1972,drama,8.252517
20733,20734,The Dark Knight,152,8.3,12269,2008,drama,8.181884
5158,5159,Fight Club,139,8.3,9678,1999,drama,8.152079
603,604,Pulp Fiction,154,8.3,8670,1994,suspenso,8.135977
727,728,Forrest Gump,142,8.2,8147,1994,comedia,8.032911
25272,25273,Inception,148,8.1,14075,2010,accion,8.004476
1093,1094,Schindler's List,195,8.3,4436,1993,drama,7.997801
36397,36398,Whiplash,105,8.3,4376,2014,drama,7.99415
35323,35324,Interstellar,169,8.1,11187,2014,adventura,7.981052


Notemos que nuestra recomendaciónseñala el mismo top 3 que IMDB (*$^*$imagen tomada el 28 de Abril de 2022)*:

<div  style="max-width: 60%;">
<img src = "figs/IMDB.png"/>
</div>


En el top figura [The Shawshank Redemption](https://es.wikipedia.org/wiki/The_Shawshank_Redemption) que fue estrenada como "Sueño de fuga" en Hispanoamérica y como "Sueños de libertad" o "Escape a la libertad" en Argentina.

Nuestro simple recomendador genera recomendaciones sencillas pero no muy personalizadas. Veamos entonces otro sistema que nos permita recomendar sugerencias más personalizadas.

### Un  recomendador basado en conocimiento 

Construyamos entonces ahora un recomendador que incorpore preferencias de los usuarios. Para ello seguimos utilizando la bsase anterior y lo que el recomendadro hará es:

1. Preguntar al usuario por el género de película que está buscando.
2. Preguntar al usuario por la duración.
3. Preguntar al usuario por el rango de año de estreno de la película.
4. Con esta información recomendará la película con el $Score$ más alto.

Veamos entonces cuáles son los géneros disponibles:

In [10]:
df['genero'].value_counts()

drama              15909
comedia            10752
suspenso            6718
accion              5634
romance             5003
terror              4098
documental          3659
adventura           2727
ciencia ficcion     2612
fantasia            1924
misterio            1919
animacion           1710
musical             1121
guerra               760
western              398
Name: genero, dtype: int64

y los años disponibles:

In [11]:
df['ano'].value_counts()

2015    3244
2014    3236
2013    2994
2009    2976
2011    2861
2010    2705
2016    2669
2008    2666
2012    2663
2007    2377
2006    2348
2005    2030
2004    1821
2002    1717
2003    1626
2001    1593
2000    1442
1998    1297
1999    1289
1997    1205
1996    1156
1995    1095
1994    1005
2017     956
1993     937
1988     899
1987     849
1989     841
1992     837
1990     807
1991     802
1985     712
1986     694
1984     684
1983     664
1982     657
1981     647
1980     645
1972     628
1971     621
1973     621
1974     583
1979     578
1977     572
1978     568
1975     566
1976     546
2018      11
2020       4
Name: ano, dtype: int64

Construyamos entonces una función que nos pregunte por nuestras preferencias y que nos genere las recomendaciones. En otras palabras, estos son los tres pasos principales de la función:

   1. Obtener información del usuario sobre sus preferencias.
   2. Filtrar las películas que coincidan con las condiciones establecidas por el usuario.
   3. Calcular los valores de m y C.
   4. Retornar las sugerencias.

Llamaremos a la función `recomendador` y tendrá 2 parámetros: la base de datos sobre la que construye la recomendaciones y el percentil ($m$). Utilizaremos por ahora el mismo $m=.95$ del ejemplo anterior:

In [12]:
def recomendador(db, percentile=0.95):
    # Preguntar por los géneros preferidos
    print("Hola este es tu sistema de recomendación")
    print("Te voy a hacer unas preguntas para generar sugerencias")
    print("¿Qué género de película querés ver?")
    genre = input()
    
    # Preguntar por la duración mínima de la película
    print("¿Cuál es la duración mínima que querés? (en minutos)")
    low_time = int(input())
    
    # Preguntar por la duración máxima de la película
    print("¿Cuál es la duración máxima que querés? (en minutos)")
    high_time = int(input())

        # Preguntar por el rango de los años en que la película fue estrenada
    print("Ahora te voy a preguntar por el rango de años de estreno de la película")

    print("¿Cuál es el año de estreno más viejo que querés ver? ")
    low_year = int(input())
    
    print("¿Cuál es el año de estreno más nuevo que querés ver? ")
    high_year = int(input())
    

    # Definimos una nueva variable que va a guardar las películas preferidas, para ello copiamos los contenidos de la bas
    movies = db.copy()
    
    # Filtramos basado en las respuestas
    movies = movies[(movies['genero'] == genre) & 
                    (movies['duracion'] >= low_time) & 
                    (movies['duracion'] <= high_time) & 
                    (movies['ano'] >= low_year) & 
                    (movies['ano'] <= high_year)]
    
    # Calculamos los valores de C y m
    C = movies['voto_promedio'].mean()
    m = movies['numero_votos'].quantile(percentile)
    

    # Consideramos sólo películas que tienen más de m votos, y las guardamos en un data.frame
    q_movies = movies.copy().loc[movies['numero_votos'] >= m]
    
    # Calculamos el score usando la  formula de IMDB
    q_movies['score'] = q_movies.apply(lambda x: (x['numero_votos']/(x['numero_votos']+m) * x['voto_promedio']) 
                                       + (m/(m+x['numero_votos']) * C)
                                       ,axis=1)

    # Ordenamos las películas en orden descendiente de su score
    q_movies = q_movies.sort_values('score', ascending=False)
    
    return q_movies

Utilicemos entonces esta función para generar recomendaciones de películas de drama de entre media y 2 horas de duración que fueron estrenadas entre 1990 y 2005:

In [13]:
recomendador(df).head()

Hola este es tu sistema de recomendación
Te voy a hacer unas preguntas para generar sugerencias
¿Qué género de película querés ver?
drama
¿Cuál es la duración mínima que querés? (en minutos)
30
¿Cuál es la duración máxima que querés? (en minutos)
120
Ahora te voy a preguntar por el rango de años de estreno de la película
¿Cuál es el año de estreno más viejo que querés ver? 
1990
¿Cuál es el año de estreno más nuevo que querés ver? 
2005


Unnamed: 0.1,Unnamed: 0,titulo,duracion,voto_promedio,numero_votos,ano,genero,score
3992,3993,Life Is Beautiful,116,8.3,3643,1997,drama,8.109381
596,597,Leon: The Professional,110,8.2,4293,1994,drama,8.042907
4003,4004,American History X,119,8.2,3120,1998,drama,7.989047
1240,1241,The Silence of the Lambs,119,8.1,4549,1991,drama,7.95741
105,106,The Usual Suspects,106,8.1,3334,1995,drama,7.909752


Vemos que las películas retornadas por la función satisfacen todas las condiciones que ingresamos. Notemos también que dado que usamos la métrica definida por IMDB, las sugerencias son películas con altos votos promedio y también con muchos votos (películas populares). Note también que estas recomendaciones incluyen *American History X*, que es una de mis películas favoritas. Por mi parte, estaría muy satisfecho con estas sugerencias.

# Referencias

- Banik, R. (2018). Hands-on recommendation systems with Python: start building powerful and personalized, recommendation engines with Python. Packt Publishing Ltd.

- Covington, P., Adams, J., & Sargin, E. (2016). Deep Neural Networks for YouTube recommendations. Proceedings of the 10th ACM Conference on Recommender Systems. https://doi.org/10.1145/2959100.2959190 

- Google developers. (n.d.). Recommendation systems. Google. Consultado en Abril 3, 2022, de https://developers.google.com/machine-learning/recommendation/overview 