# Introducción a los Sistemas de Recomendación

Cuenta la leyenda que Tántalo, hijo de Zeus y la oceanide Ploto, después de muerto fue eternamente torturado en el Tártaro por los crímenes que había cometido. Su castigo consistió en estar en un lago con el agua a la altura de la barbilla, bajo un árbol de ramas bajas repletas de frutas. Cada vez que Tántalo, desesperado por el hambre o la sed, intenta tomar una fruta o sorber algo de agua, estos se retiran inmediatamente de su alcance.

La sociedad digital actual esta "condenada" a sufrir este mismo castigo. La llegada de internet, las redes sociales y el internet de las cosas ha provocado que los seres humanos dispongan a su alcance de mucha más información de la que son capaces de asimilar. Cada día se suben cientos de horas de nuevos contenidos a Netflix y Youtube. La lista de canciones de Spotify es interminable. Es imposible leer todos los *tweets* publicados por los *influencers* o estar al tanto de las últimas novedades de los *bloggers* de moda. Se necesitan herramientas que simplifiquen el proceso de acceso y consumo de la información disponible en la red.

Un **sistema de recomendación** se define como un sistema inteligente capaz de proporcionar a cada usuario una lista personalizada con los productos que pueden resultar de su interés. Los sistemas de recomendación pueden emplearse para proporcionar recomendaciones sobre una amplia variedad de tipos de productos. Por ejemplo, podemos encontrar sistemas de recomendación de, entre otros:

- Películas
- Libros
- Restaurantes
- Destinos vacacionales
- Productos de *e-commerce*
- Recursos educativos

En general, todos los sistemas de recomendación se construirán a partir de 3 elementos esenciales:

- **Usuarios**: son los destinatarios de las recomendaciones. El sistema de recomendación deberá analizar su actividad en el pasado para poder inferir sus preferencias y, por tanto, realizar las recomendaciones oportunas.
- **Items**: son los productos a recomendar. El sistema de recomendación extraerá las características fundamentales de cada item para recomendarlo a aquellos usuarios a los que pueda interesarles.
- **Votaciones**: cuantifican el interés de un determinado usuario por un determinado item. Estas votaciones pueden ser implícitas  (el usuario espresa su interés por un item en una escala preestablecida) o explícitas (el sistema infiere la preferencia de un usuario por un item función de su interacción con el mismo).

La siguiente figura representa los diferentes niveles de información sobre los que puede trabajar un sistema de recomendación:

<img src="https://drive.google.com/uc?export=view&id=1wUivEDCDf5prZHLYPnbkBiyCm4tOz41W" alt="Datos empleados por los sistemas de recomendación" style="width: 50%;">

  
Como podemos observar la figura esta divida en está dividida en 4 niveles: memoria, contenidos, información social y contexto. Cada nivel está, a su vez, dividido en 4 sectores determinados por si la información proviene de un usuario o un item y si esta ha sido obtenida de forma explícita o implícita.

De este modo, el **nivel basado en memoria** recoge las votaciones que los usuarios realizan sobre los items. Cuando se tratan de votaciones explicitas, los usuarios indican su grado de afinidad con un determinado item. Por lo general, estas votaciones se mueven en un ranking preestablecido: me gusta/no me gusta, de 1 a 5 estrellas (con o sin medios puntos) ó valoración de 1 a 10 puntos. Por contra, cuando se trata de votaciones implícitas, el sistema debe inferir el interés de un usuario por un determinado item basándose en la interacción  del usuario con dicho item. Por ejemplo, en un servicio de música, podría inferirse que a un usuario le interesa una canción si la escucha muchas veces o si la añade a una *playlist*. Debido a la generalidad de este nivel, la mayoría de los sistemas de recomendación se construyen  empleando únicamente la información de las votaciones.

El **nivel basado en contenidos** agrega información adicional que puede mejorar la calidad de las recomendaciones proporcionadas. Dentro de este nivel encontramos la información demográfica que los usuarios añaden manualmente a sus perfiles: sexo, edad, profesión, nacionalidad, etc. También podemos encontrar información referente a la actividad de los usuarios en la aplicación: ¿cuántas veces se conecta el usuario? ¿cuándo suele hacerlo? Desde el punto de vista de los items, también disponemos de información explicita (descripciones, características, precios, etc.) e información explicita (¿cuánta gente accede a un item? ¿Cuándo lo hacen? ¿Es tendencia?). 

El **nivel basado en información** social añade los datos referentes a la *web social* a los sistemas de recomendaciones. Por ejemplo, los usuarios pueden disponer de amigos, seguidores, reputación, etc. obtenida tanto de forma explícita como implícita. Por su parte, los items reciben etiquetas (*tags*) por parte de los usuarios y se clasifican en función de sus *likes*, *dislikes*, *retweets*, *refs*, etc. Esta información permite a los sistemas de recomendación conocer mejor a sus usuarios mediante su interacción con otros usuarios del sistema.

El **nivel basado en contexto** rehúye de la información explicita y busca incorporar nueva información basada en el internet de las cosas (*Internet of Things*). Por lo tanto, en este nivel se recibe información personal de los usuarios basada en su geolocalización, sus parámetros biométricos o sus hábitos de vida. De los items puede monitorizarse también su integración con el medio ambiente (en caso de que proceda) y detectar su ubicación geográfica, la climatología u otros sensores para medir propiedades físicas. Este nivel permite realizar recomendaciones mucho más precisas como, por ejemplo, "*recomiéndame restaurantes cercanos que me proporcionen comida adecuada para un día caluroso*.

## Clasificación de los sistemas de recomendación

Es frecuente denominar los sistemas de recomendación como filtros, ya que estos dejan pasar aquella información que consideran relevante para el usuario y bloquean aquellos items que no se ajustan a las preferencias de este.

Ateniendo a esta definición de filtrado, los sistemas de recomendación se clasifican en:

- **Filtrado demográfico**. Se proporcionan recomendaciones atendiendo a las características demográficas de los usuarios. Este tipo de sistemas presuponen que usuarios con similares características demográficas dispondrán de intereses similares. Este tipo de filtrado podría, por ejemplo, proporcionar las mismas recomendaciones a usuarios que fueran de la misma edad y vivieran en la misma población. Por lo general, los sistemas de filtrado colaborativo proporcionan recomendaciones poco innovadoras y, en general, desacertadas, ya que es extraño disponer de suficiente información demográfica de los usuarios, esta información suele resultar poco fiable y, además, no es habitual que dos personas compartan intereses sólo por tener características demográficas similares.

- **Filtrado basado en contenido (*content based filtering*)**. Se proporcionan como recomendaciones aquellos items que se consideran similares a los que el usuario indicó que le gustaban en el pasado. Para ello, los sistemas de filtrado basado en contenido determinan la similaridad entre dos items utilizando su "contenido", es decir, las características que describen cada item. Esta similaridad suele determinarse mediante heurísticos, aunque recientemente se ha popularizado determinar la similaridad de dos items en base a información no estructurada. Por ejemplo, el algoritmo de *Latent Dirichlet Allocation (LDA)* permite conocer la similaridad que tienen dos textos. Es habitual utilizar *LDA* para comparar las descripciones existentes de dos items y, posteriormente, recomendar al usuario aquellos items que tienen una descripción similar a aquella que tenían sus items preferidos.

- **Filtrado colaborativo (*collaborative filtering*)**. Se proporcionan recomendaciones en base a la actividad de una amplia comunidad de usuarios que valora un conjunto cerrado de items. Este tipo de filtrado basa su funcionamiento en el comportamiento habitual de las personas para recibir recomendaciones: cuando una persona quiere ir al cine a ver una película, pregunta a aquellos amigos con los que comparte intereses su opinión acerca de dicha película. El filtrado colaborativo realiza estas "preguntas" empleando una base de datos en la que existen millones de opiniones de miles de usuarios sobre miles de items. El filtrado colaborativo se encarga de buscar patrones de votaciones similares para poder predecir aquellos items que el usuario no ha votado y, por tanto, proporcionarle recomendaciones.

Debido a su simplicidad y su buen rendimiento, el tipo de filtrado más utilizado es el filtrado colaborativo. Para su funcionamiento únicamente requiere la tripla *<usuario, item, voto>*. Esta información suele representarse en una matriz de votaciones cuyo grado de dispersión es sumamente elevado debido a que, por lo general, los usuarios únicamente votan una pequeña proporción de los items existes. Por ejemplo, es impensable que una persona haya visto todas las películas que existen, que un usuario compre todos los productos de Amazon o que un estudiante curse todas las materias de una universidad. En función de cómo se construyan las recomendaciones a partir de dicha matriz, el filtrado colaborativo se subdivide en dos categorías:

- **Métodos basados en memoria**. Las recomendaciones se construyen actuando directamente sobre la matriz de votaciones. El método más popular es el de los ***k* vecinos**, en el cual se busca encontrar los *k* usuarios más similares a uno dado para encontrar las recomendaciones a partir de estos.

- **Métodos basados en modelos**. Las recomendaciones se obtienen de un modelo de la matriz de votaciones. Se han realizado multitud de modelos con este fin, pero, sin duda, el que mejores resultados ha reportado es el modelo de **factorización matricial**. En este modelo se plantea la hipótesis de que las votaciones de los usuarios están condicionadas a un conjunto de factores ocultos inherentes al tipo de items a valorar.

## Referencias

Adomavicius, G., & Tuzhilin, A. (2005). **Toward the next generation of recommender systems: A survey of the state-of-the-art and possible extensions**. IEEE Transactions on Knowledge & Data Engineering, (6), 734-749.

Ricci, F., Rokach, L., & Shapira, B. (2011). **Introduction to recommender systems handbook**. In Recommender systems handbook (pp. 1-35). Springer, Boston, MA.

Bobadilla, J., Ortega, F., Hernando, A., & Gutiérrez, A. (2013). **Recommender systems survey**. Knowledge-based systems, 46, 109-132.

---

*Este documento ha sido desarrollado por **Fernando Ortega**. Dpto. Sistemas Informáticos, ETSI de Sistemas Informáticos, Universidad Politécnica de Madrid.*

*Última actualización: Marzo de 2019*


<img src="https://drive.google.com/uc?export=view&id=1QuQDHyH_yrRbNt6sGzoZ8YcvFGEGlnWZ" alt="CC BY-NC">