# Filtrado Colaborativo

El **filtrado colaborativo** es una implementación de los sistemas de recomendación que buscan proporcionar recomendaciones basándose en la idea de que usuarios que compartieron intereses en el pasado los compartirán también en el futuro. Los sistemas de filtrado colaborativo se construyen en base a una amplia comunidad de usuarios que expresa su opinión, de forma explícita o implícita, sobre un conjunto prefijado de items. Generalmente, esta información viene representada por una matriz en la que las filas son los **usuarios**, las columnas son los **items** y las celdas contienen el valor del **voto** que un usuario ha emitido sobre un item.

A esta matriz se la conoce como **matriz de votaciones** y, generalmente, nos referimos a ella como ***R***, por el termino en inglés *ratings*. La principal característica de esta matriz es su elevado grado de dispersión, es decir, la gran mayoría de sus celdas estarán vacías. Este fenómeno se debe a que, por lo general, los usuarios no votan la mayoría de los items existentes en el sistema. La ausencia de voto (generalmente la representaremos con el símbolo $\bullet$) no significa que al usuario no le haya gustado un item. El *no-voto* suele deberse a dos factores: **el usuario no conocía el item** o **al usuario no le interesa el item**. Cuando trabajamos con sistemas de recomendación asumimos que si un usuario que no ha valorado un item es porque no lo conocía.

Al trabajar sobre esta hipótesis, simplificamos el problema del filtrado colaborativo a, simplemente, rellenar los huecos existentes en la matriz de votaciones en función del comportamiento de la comunidad de usuarios que compone sistema de filtrado colaborativo. Ilustremos esto con un ejemplo. 

Dada la siguiente matriz de votaciones... ¿con que nota valorará el usuario *u3* al item *i5*?

| R   	| i1 	| i2 	| i3 	| i4 	| i5 	| i6 	| i7 	| i8 	| i9 	|
|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|
| u1 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u2 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u3 	|  5 	|  5 	|  5 	|  5 	|  ? 	|  5 	|  5 	|  5 	|  5 	|
| u4 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|

Parece lógico pensar que, en este caso, el usuario votará dicho item con un 5, ya que todos los demás votos son un 5.

¿Y si la matriz fuese la siguiente?

| R   	| i1 	| i2 	| i3 	| i4 	| i5 	| i6 	| i7 	| i8 	| i9 	|
|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|
| u1 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u2 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u3 	|  5 	|  5 	|  5 	|  5 	|  ? 	|  5 	|  5 	|  5 	|  5 	|
| u4 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|
| u5 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|

De nuevo, mantenemos la conjetura de que el voto será un 5, ya que los usuarios *u1* y *u2* han coincidido en todas las votaciones con el usuario *u3* y estos han indicado que el item *i5* debe votarse con un 5. Por contra, los usuarios *u4* y *u5* han votado lo contrario que el usuario *u3* y, por tanto, no intervienen en el proceso de la predicción.

¿Pero qué pasaría si la matriz de votaciones fuese la siguiente?

| R   	| i1 	| i2 	| i3 	| i4 	| i5 	| i6 	| i7 	| i8 	| i9 	|
|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|
| u1 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u2 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|  5 	|
| u3 	|  1 	|  1 	|  1 	|  1 	|  ? 	|  1 	|  1 	|  1 	|  1 	|
| u4 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|
| u5 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|  1 	|

Siguiendo un razonamiento análogo al anterior, otorgaríamos a dicha predicción un 1.

¿Y si la matriz de predicciones fuera esta?

| R   	| i1 	| i2 	| i3 	| i4 	| i5 	| i6 	| i7 	| i8 	| i9 	|
|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|:--:	|
| u1 	|  5 	|  5 	|  5 	|  5 	|  5 	|   	|   	|   	|   	|
| u2 	|  5 	|  5 	|  5 	|  5 	|  5 	|   	|   	|   	|   	|
| u3 	|  5 	|  5 	|  5 	|  5 	|  ? 	|  1 	|  1 	|  1 	|  1 	|
| u4 	|   	|   	|   	|   	|  1 	|  1	|  1 	|  1 	|  1 	|
| u5 	|   	|   	|   	|   	|  1 	|  1 	|  1 	|  1 	|  1 	|

Por un lado, los usuarios *u1* y *u2* están "forzando" a que la predicción sea un 5, pero por otro, los usuarios *u4* y *u5* están forzando a que la predicción sea 1. En este caso, parece sensato admitir, que no hay evidencias para saber si el item *i5* gustará o no al usuario *u3* y, por tanto, el sistema le asignará una predicción de 3.

Este sencillo ejemplo resume a la perfección cómo funciona el filtrado colaborativo. Estos algoritmos analizan las tendencias y patrones de comportamiento existentes en la matriz de votaciones a infieren las votaciones que harán los usuarios a aquellos items que aún no han valorado. A estas inferencias les llamaremos **predicciones**.

En función de cómo se calculen las predicciones subclasificaremos los algoritmos de filtrado colaborativo en dos categorías:

- **Métodos basados en memoria**. Construyen las predicciones directamente sobre la matriz de votaciones. La implementación más popular es el método de los *K*-vecinos (*K Nearest Neighbors, KNN).

- **Métodos basados en modelos**. Calculan las predicciones a partir de un modelo construido sobre la matriz de votaciones. La implementación más popular es la factorización matricial (*Matrix Factorization, MF*).

---

*Este documento ha sido desarrollado por **Fernando Ortega**. Dpto. Sistemas Informáticos, ETSI de Sistemas Informáticos, Universidad Politécnica de Madrid.*

*Última actualización: Marzo de 2019*


<img src="https://drive.google.com/uc?export=view&id=1QuQDHyH_yrRbNt6sGzoZ8YcvFGEGlnWZ" alt="CC BY-NC">