# 2.- Técnicas y Métricas de Evaluación de los Sistemas de Recomendación


* En este Notebook vamos a ver las ***técnicas de evaluación*** de los sistemas de recomendación, así como las ***métricas tradicionales para evaluar los resultados de las recomendaciones*** y de los sistemas de recomendación y otras métricas de evaluación específicas de los sistemas de recomendación.
<span></span><br>
    1. [Técnicas de Evaluación de los Sistemas de Recomendación](#M1)
<span></span><br>
    2. [Métricas de Evaluación de los Sistemas de Recomendación](#M2)
    <span></span><br>
    2.1. [Evaluación de las Predicciones](#M21)
    <span></span><br>
    2.2. [Evaluación de las Recomendaciones](#M22)
    <span></span><br>
    2.3. [Ejemplo de Evaluación de un Sistema de Recomendación](#M23)
<span></span><br>
    3. [Evaluación de las listas de recomendaciones](#M3)
<span></span><br>
    4. [Otras Métricas de Evaluación de los Sistemas de Recomendación](#M4)
<hr>



# <a name="M1">1. Técnicas de Evaluación de los Sistemas de Recomendación</a>


* Para poder determinar la bondad de los resultados proporcionados por un sistema de recomendación, existe un conjunto de medidas de calidad estandarizadas que tienen por objetivo medir la calidad de las recomendaciones proporcionadas por el sistema de recomendación y compararlo con otros sistemas de recomendación para determinar cuál es el que mejor se ajusta nuestras necesidades.


* Con el fin de replicar de la forma más certera posible un escenario de recomendación real, es necesario dividir el *dataset* (la matriz de feedback) en dos: **entrenamiento** y **test**. 
<span></span><br><br>
    + La parte de **entrenamiento** permitirá "ajustar" el sistema para que pueda proporcionar recomendaciones.
<span></span><br><br>
    + La parte de **test** permitirá comparar las votaciones reales de los usuarios con las recomendaciones proporcionadas por el sistema para medir la calidad de las mismas.


* En la mayoría de los problemas de aprendizaje automático, esta división es trivial, aplicando técnicas como el *Hold-out*, *Cross Validation* o *Leave One Out*. 


* Cuando tratamos con sistemas de recomendación, es necesario hacer una división específica para este tipo de problemas. En primer lugar, debemos ***dividir los usuarios en conjuntos de entrenamiento y test***. 
<span></span><br><br>
    + Los **usuarios de entrenamiento** serán usuarios del sistema que se emplean únicamente para entrenar el sistema.
<span></span><br><br>
    + Los **usuarios de test** serán usuarios sobre los que se calcularán las recomendaciones que serán contrastadas con las medidas de calidad. 
        

* Sin embargo, si simplemente dividiéramos a los usuarios, las predicciones realizadas deberían hacerse sobre los votos de los usuarios de test que ya han intervenido en el proceso de entramiento, falseando de este modo las mediciones del sistema. Por lo tanto, además de dividir los usuarios, debemos ***dividir los items en items entrenamiento y test***.
<span></span><br><br>
    + Los **items de entrenamiento** serán los items votados por los usuarios de test con los que se inferirán sus preferencias.
<span></span><br><br>
    + Los **items de test** serán los items votados por los usuarios de test sobre los que aplicaremos la evaluación mediante medias de calidad.
    
    
* La siguiente figura muestra conceptualmente esta división:


<img src="./imgs/02_01_eval_recsys.png" style="width: 600px;"/>


* Si lo queremos ver en un ejemplo, supongamos el siguiente Sistema de Recomendación de series, donde una serie de usuarios votan con votos de 1 a 5 un conjunto de series:

<img src="./imgs/02_02_eval_recsys.png" style="width: 300px;"/>


* Realizando una división en entrenamiento y test, tendríamos que:
<span></span><br><br>
    + Usuarios de test serian los usuarios $U_3$ y $U_4$.
<span></span><br><br>
    + Item de test serian las series $I_1$, $I_3$ e $I_4$.

<img src="./imgs/02_03_eval_recsys.png" style="width: 400px;"/>


* En las siguientes secciones se definirán conceptual y formalmente las diferentes medidas de calidad existentes. Para ello emplearemos las siguientes definiciones:
<span></span><br><br>
    - Sea $U$ el conjunto de **usuarios de entrenamiento**.
<span></span><br><br>
    - Sea $U^T$ el conjunto de **usuarios de test**.
<span></span><br><br>
    - Sea $I$ el conjunto de **items de entrenamiento**.
<span></span><br><br>
    - Sea $I^T$ el conjunto de **items de test**.
<span></span><br><br>
    - Sea $r_{u,i}$ la **votación** del usuario $u$ al item $i$.
<span></span><br><br>
    - Sea $\hat{r}_{u,i}$ la **predicción** del voto del usuario $u$ al item $i$.


<hr>


# <a name="M2">2. Métricas de Evaluación de los Sistemas de Recomendación</a>


* Los Sistemas de Recomendación tienen como objetivo ofrecer al usuario una lista de items que pueden ser relevantes para él, calculado esta lista de items a recomendar en función de los gustos del usuario que hemos podido obtener bien de forma explicita (votos, like, dislike, etc.) o de forma implicita (visualizaciones, reproducciones, etc.).


* Centrandonos en los Sistemas de Recomendación en los que los usuarios expresan sus preferencias de forma explicita, podemos evaluar las recomendaciones a realizar de dos maneras:
<span></span><br>
    1. Como si de un ***problema de Regresión*** se tratase, prediciendo el voto que emitiría el usuario sobre un item no valorado; por ejemplo, un voto comprendido entre el 1 y el 5.
<span></span><br><br>
    2. Como si de un ***problema de Clasificación*** se tratase, prediciendo si un item no valorado por el usuario le gustará o no le gustará.
    
    
* Por tanto podemos evaluar los sistemas de recomendación de dos maneras:
<span></span><br>
    1. Evaluando las Predicciones (Regresión)
<span></span><br><br>
    2. Evaluando las Recomendaciones (Clasificación)



## <a name="M21">2.1. Evaluación de las Predicciones</a>

* Las medidas de calidad de las predicciones tienen como objetivo evaluar lo certeras que han sido las predicciones realizadas por el sistema de recomendación. 


* Estas medidas ***comparan el valor de la predicciones del voto ($\hat{r}_{u,i}$) con la votación de test real emitida los el usuario ($r_{u,i}$)***. 


* Disponemos de diferentes alternativas para su implementación, siendo las siguientes 3 las más comunes:

    1. **Error Medio Absoluto** (*Mean Absolute Error | MAE*) como la diferencia media en valor absoluto de los votos y las predicciones. 
<span></span><br>    
    Definimos el *MAE* del usuario $u$ como:
<span></span><br><br>
$$MAE_u = \frac{ \sum_{i \in I^T_u} \mid r_{u,i} - \hat{r}_{u,i} \mid  }{\#I^T_u} $$
<span></span><br><br>
    donde $I^T_u$ representa el conjunto de items de test votados por el usuario $u$.
<span></span><br><br>
    Definimos el *MAE* del sistema como el promedio del *MAE* de cada usuario:
<span></span><br><br>
$$MAE = \frac{ \sum_{u \in U^T} MAE_u }{ \#U^T } $$
<span></span><br><br>
    2. **Error Cuadrático Medio** (*Mean Squared Error | MSE*) como la diferencia cuadrática media de los votos y las predicciones. Este error penaliza más los errores grandes que el *MAE*. Definimos el *MSE* del usuario $u$ como:
<span></span><br><br>
$$MSE_u = \frac{ \sum_{i \in I^T_u} ( r_{u,i} - \hat{r}_{u,i} )^2  }{\#I^T_u} $$
<span></span><br><br>
    Definimos el *MSE* del sistema como el promedio del *MSE* de cada usuario:
<span></span><br><br>
$$MSE = \frac{ \sum_{u \in U^T} MSE }{ \#U^T } $$
<span></span><br><br>
    3. **Raíz del Error Cuadrático Medio** (*Root Mean Squared Error | RMSE*) como la raíz de la diferencia cuadrática media de los votos y las predicciones. Definimos el *RMSE* del usuario $u$ como:
<span></span><br><br>
$$RMSE_u = \sqrt{ \frac{ \sum_{i \in I^T_u} ( r_{u,i} - \hat{r}_{u,i} )^2  }{\#I^T_u} }$$
<span></span><br><br>
    Definimos el *RMSE* del sistema como el promedio del *RMSE* de cada usuario:
<span></span><br><br>
$$RMSE = \frac{ \sum_{u \in U^T} RMSE }{ \#U^T } $$


## <a name="M22">2.2. Evaluación de las Recomendaciones</a>


* Las medidas de calidad de las recomendaciones tienen como objetivo evaluar lo satisfactorias que han resultados las recomendaciones proporcionadas a un usuario; es decir, si la recomendación realiaza ha sido satisfactoria o no.


* Para los Sistemas de Recomendación basados en votaciones, incluir el concepto de satisfacción dentro de las medidas de calidad requiere una binarización de los posibles votos que puede emitir un usuario en dos categorías: me gusta y no me gusta. 


* Generalmente, esta binarización se produce mediante un umbral ($\theta$) que indica a partir de qué valor se considera relevante (me gusta) un voto. Por ejemplo, si las votaciones plausibles van de 1 a 5 estrellas podemos establecer el umbral igual a 4 ($\theta = 4$) y, de este modo, se consideran como relevantes los votos 4 y 5, y como no relevantes los votos 1, 2 y 3.


* Basándonos es ese concepto, podemos simplificar el problema de la evaluación de las recomendaciones a un problema de clasificación binaria y por tanto podemos evaluar un sistema de recomendación con aquellas métricas destinadas a evaluar los modelos creados para problemas de clasificación como pueden ser la ***Precision***, el ***Recall*** o el ***F1*** (F-Score) entre otras.


* Antes de pasar a mostrar estas métricas de calidad vamos a definir los siguiente:
<span></span><br><br>
    + $I_{u}=\left \{ i\in I |r_{u,i} \neq \bullet \right \}$: Conjunto de votos válidos del usuario $u$.
<span></span><br><br>
    + $X_{u}$: Items susceptibles de ser recomendados al usuario $u$.
<span></span><br><br>
    + $Z_{u}$: Items recomendados al usuario $u$.
<span></span><br><br>
    + $Y_{u}=\left \{ i \in Z_{u} | r_{u,i}\geq \theta   \right \}$: items recomendados y relevantes para el usuario $u$.
<span></span><br><br>
    + $N_{u}=\left \{ i \in Z_{u} | r_{u,i}<  \theta  \right \}$: items recomendados y no relevantes para el usuario $u$
<span></span><br><br>
    + $O_{u}=\left \{ i \in (I_{u}-Z_{u}) | r_{u,i} \geq  \theta  \right \}$: items no recomendados y relevantes para el usuario $u$
    
    
* Definimos las métricas ***Precision***,***Recall*** y ***F1***:
<span></span><br><br>
    1. Definimos la ***Precision de un usuario $u$***, y la denotamos como $precision_{u}$, como el porcentaje de items relevantes entre los recomendados:
<span></span><br><br>
$$precision_{u}=\frac{\#Y_{u}}{\#Y_{u}+\#N_{u}}$$
<span></span><br><br>
    La ***Precision del sistema*** puede calcularse como el valor promedio de la Precision de cada usuario:
<span></span><br><br>
$$precision=\frac{1}{\#U}\cdot \sum_{u \in U}precision_{u}$$
<span></span><br><br>
    2. Definimos el ***Recall de un usuario $u$***, y la denotamos por $recall_{u}$, como el porcentaje de items relevantes recomendados respecto del total de relevantes:
<span></span><br><br>
$$recall_{u}=\frac{\#Y_{u}}{\#Y_{u}+\#O_{u}}$$
<span></span><br><br>
    El ***Recall del sistema*** puede calcularse como el valor promedio del recall de cada usuario:
<span></span><br><br>
$$recall=\frac{1}{\#U}\cdot \sum_{u \in U}recall_{u}$$
<span></span><br><br>
    3. Para encontrar un equilibrio entre la Precision y el Recall, definimos el ***F1 de un usuario $u$***, y la denotamos por $F1_{u}$, como la media armónica de la Precision y el Recall:
<span></span><br><br>
$$F1_u = 2 \cdot \frac{ precision_u \cdot recall_u }{ precision_u + recall_u }$$
<span></span><br><br>
    El ***F1 del sistema*** puede calcularse como el valor promedio del F1 de cada usuario:
<span></span><br><br>
$$F1=\frac{1}{\#U}\cdot \sum_{u \in U}F1{u}$$


## <a name="M23">2.3. Ejemplo de Evaluación de un Sistema de Recomendación</a>


* Para ver como evaluaríamos el rendimiento de un Sistema de Recomendación con las métricas que vamos a ver en los siguientes puntos, supongamos el siguiente ejemplo en el que tenemos un Sistema de Recomendación con las siguientes características:

<div id="tabla_parametros_FC" markdown="1">

|             **Parámetro**             | **Valor** |
|:-------------------------------------:|:---------:|
|           Número de usuarios          |     6     |
|            Número de items            |     12    |
|      Valor mínimo de la votación      |     1     |
|      Valor máximo de la votación      |     5     |
|            Ausencia de voto           |     •     |
|     Número de recomendaciones (N)     |     2     |
| Umbral de relevancia de un item (*θ*) |     4     |

</div>


* Siendo la matriz de votos la siguiente:


<div id="tabla_votaciones" markdown="1">

|        | **I1** | **I2** | **I3** | **I4** | **I5** | **I6** | **I7** | **I8** | **I9** | **I10** | **I11** | **I12** |
|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:-------:|:-------:|:-------:|
| **U1** |    1   |    2   |    •   |    •   |    2   |    •   |    3   |    4   |    •   |    4    |    1    |    •    |
| **U2** |    •   |    •   |    1   |    5   |    •   |    5   |    3   |    1   |    •   |    5    |    2    |    1    |
| **U3** |    1   |    •   |    •   |    2   |    •   |    1   |    •   |    3   |    4   |    •    |    •    |    •    |
| **U4** |    •   |    1   |    4   |    4   |    •   |    •   |    3   |    •   |    5   |    4    |    •    |    1    |
| **U5** |    2   |    •   |    5   |    •   |    1   |    •   |    1   |    •   |    •   |    •    |    2    |    1    |
| **U6** |    •   |    •   |    5   |    2   |    1   |    •   |    •   |    4   |    •   |    1    |    •    |    2    |

</div>


* Y tras realizar las predicciones de voto (más adelante veremos como hacerlas), tenemos lo siguiente, marcando en color azul las predicciones de items no votados por el usuario:

<div id="tabla_predicciones" markdown="1">

| ***r&tilde;*<sub>*u*, *i*</sub>** |  **I1** | **I2** | **I3** | **I4** |  **I5** | **I6** | **I7** | **I8** |  **I9** | **I10** | **I11** | **I12** |
|:--------------------------:|:-------:|:------:|:------:|:------:|:-------:|:------:|:------:|:------:|:-------:|:-------:|:-------:|:-------:|
|           **U1**           |    1    |    1   |  <font color="blue">4</font> |  <font color="blue">3</font> |    2    |  <font color="blue">1</font> |    3   |    3   | <font color="blue">4,5</font> |    4    |    •    |  <font color="blue">1</font>  |
|           **U2**           |  <font color="blue">1</font>  |  <font color="blue">1</font> |    4   |   3,5  |  <font color="blue">2</font>  |    1   |    3   |    3   |  <font color="blue">5</font>  |    4    |    •    |    1    |
|           **U3**           |    2    |    •   |  <font color="blue">5</font> |    2   |  <font color="blue">1</font>  |    •   |  <font color="blue">1</font> |    4   |    •    |  <font color="blue">1</font>  |  <font color="blue">2</font>  | <font color="blue">1,5</font> |
|           **U4**           | <font color="blue">1,5</font> |    1   |   4,5  |    3   | <font color="blue">1,5</font> |  <font color="blue">1</font> |    2   |  <font color="blue">3</font> |    •    |    4    |  <font color="blue">2</font>  |    1    |
|           **U5**           |    2    |    •   |    5   |    •   |    1    |    •   |    •   |    <font color="blue">4</font>   |    •    |  <font color="blue">1</font>  |    2    |    2    |
|           **U6**           |  <font color="blue">2</font>  |    •   |    5   |    2   |    1    |    •   |    •   |    4   |    •    |    •    |  <font color="blue">2</font>  |    2    |

</div>


### Evaluación de las Predicciones


* Veamos a continuación como calcularíamos el MAE para el usuario $U_1$ del ejemplo propuesto anteriormente:
<span></span><br><br>
    + El usuario $U_1$ ha votado los siguiente items: $\left \{ I_{1},I_{2},I_{5},I_{7},I_{8},I_{10} \right \}$
<span></span><br><br>
    + Calculamos su MAE de la siguiente manera:
<span></span><br><br>
    $$MAE_{U_{1}}=\frac{\left | 1-1 \right |+\left | 2-1 \right |+\left | 2-2 \right |+\left | 3-3 \right |+\left | 4-3 \right |+\left | 4-4 \right |}{6}=0,33$$
<span></span><br><br>
    + Un MAE de 0,33 significa que el Sistema de Recomendación se equivoca en la predicción de las votaciones para el usuario $U_1$ en 0,33 puntos sobre los votos que puede emitir el usuario que son de 1 a 5.


* Como lo que nos interesa no es saber el MAE sobre un usuario en concreto si no sobre todos los usuarios, vamos a pasar a calcular el MAE del sistema, calculando al principio el MAE por usuario quedando:

<div id="tabla_mae" markdown="1">

| **\|*r*<sub>*u*, *i*</sub>−*r&tilde;*<sub>*u*, *i*</sub>\|** | **I1** | **I2** | **I3** | **I4** | **I5** | **I6** | **I7** | **I8** | **I9** | **I10** | **I11** | **I12** | *M**A**E*<sub>*u*</sub> |
|:-----------------------------------------------------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:-------:|:-------:|:-------:|:-----------------------:|
|                         **U1**                        |    0   |    1   |        |        |    0   |        |    0   |    1   |        |    0    |         |         |         **0,33**        |
|                         **U2**                        |        |        |    3   |   1,5  |        |    4   |    0   |    2   |        |    1    |         |    0    |         **1,64**        |
|                         **U3**                        |    1   |        |        |    0   |        |        |        |    1   |        |         |         |         |         **0,66**        |
|                         **U4**                        |        |    0   |   0,5  |    1   |        |        |    1   |        |        |    0    |         |    0    |         **0,42**        |
|                         **U5**                        |    0   |        |    0   |        |    0   |        |        |        |        |         |    0    |    1    |         **0,2**         |
|                         **U6**                        |        |        |    0   |    0   |    0   |        |        |    0   |        |         |         |    0    |          **0**          |

</div>


* Siendo el MAE del sistema el promedio de los MAEs:
    
$$MAE =\frac{1}{\#U}\cdot \sum_{u\in U} MAE_{u}=\frac{0,33+1,64+0,66+0,42+0,2+0}{6}=0,54$$


* Con el resultado obtenido, tenemos que el Sistema de Recomendación en general se ***equivoca en 0,54 puntos*** sobre los votos que pueden emitir los usuarios que son de 1 a 5.


### Evaluación de las Recomendaciones


* Veamos a continuación como calcularíamos la *Precision* y el *Recall* del ejemplo propuesto anteriormente:


* Dado que hemos calculado las predicciones de voto de los usuarios a los items, tenemos que binarizar este resultado mediante un umbral $\theta$ (para el ejmplo $\theta=4$) el cual nos dira si recomendaríamos o no un item a un usuario en función de si su predicción es mayor o igual a ese umbral.


* Vamos a mostrar que items pueden ser recomendados a los usuarios y cuales recomendamos.

<div id="tabla_itemsRecomendados" markdown="1">

| **U<sub>i</sub>** | **X<sub>u</sub>** | **Z<sub>u</sub>** |
|:------:|:------:|:------:|
|U<sub>1</sub>|{*I*<sub>1</sub>,*I*<sub>2</sub>,*I*<sub>5</sub>,*I*<sub>7</sub>,*I*<sub>8</sub>,*I*<sub>10</sub>,*I*<sub>11</sub>}|{*I*<sub>10</sub>,*I*<sub>7</sub>∨*I*<sub>8</sub>}|
|U<sub>2</sub>|{*I*<sub>3</sub>,*I*<sub>4</sub>,*I*<sub>6</sub>,*I*<sub>7</sub>,*I*<sub>8</sub>,*I*<sub>10</sub>,*I*<sub>11</sub>}|{*I*<sub>3</sub>,*I*<sub>10</sub>}|
|U<sub>3</sub>|{*I*<sub>1</sub>,*I*<sub>4</sub>,*I*<sub>6</sub>,*I*<sub>8</sub>,*I*<sub>9</sub>}|{*I*<sub>8</sub>,*I*<sub>1</sub>∨*I*<sub>4</sub>}|
|U<sub>4</sub>|{*I*<sub>2</sub>,*I*<sub>3</sub>,*I*<sub>4</sub>,*I*<sub>7</sub>,*I*<sub>9</sub>,*I*<sub>10</sub>,*I*<sub>12</sub>}|{*I*<sub>3</sub>,*I*<sub>10</sub>}|
|U<sub>5</sub>|{*I*<sub>1</sub>,*I*<sub>3</sub>,*I*<sub>5</sub>,*I*<sub>7</sub>,*I*<sub>11</sub>,*I*<sub>12</sub>}|{*I*<sub>3</sub>,*I*<sub>1</sub>∨*I*<sub>11</sub>∨*I*<sub>12</sub>}|
|U<sub>6</sub>|{*I*<sub>3</sub>,*I*<sub>4</sub>,*I*<sub>5</sub>,*I*<sub>8</sub>,*I*<sub>10</sub>,*I*<sub>12</sub>}|{*I*<sub>3</sub>,*I*<sub>8</sub>}|

</div>


* Veamos a continuación el detalle de como calcular la *Precision* y el *Recall* para las recomendaciones del usuario 2 ($U_2$), teniendo este usuario:
<span></span><br><br>
    + $\#Y_2 = \{I_{10}\}$ items recomendados y relevantes para el usuario.
<span></span><br><br>
    + $\#N_2 = \{I_{3}\}$ items recomendados y no relevantes para el usuario
<span></span><br><br>
    + $\#O_2 = \{I_{4}, I_{6} \}$ items no recomendados y relevantes para el usuario


 * Por tanto:
$$precision_{U_{2}}=\frac{ \# \left \{ I_{10} \right \}}{\#\left \{ I_{10} \right \}+\#\left \{ I_{3} \right \}}=\frac{1}{1+1}=0,5$$
<span></span><br><br>
$$recall_{U_{2}}=\frac{ \# \left \{ I_{10} \right \}}{\#\left \{ I_{10} \right \}+\#\left \{ I_{4}, I_{6} \right \})}=\frac{1}{1+2}=0,33$$


* A continuación vamos a ver los resultados de *Precision* y *Recall* de todo el sistema:

    + ***Precision***: De las predicciones realizadas (*matriz de predicciones*), vemos el porcentaje de items relevantes ($\theta=4$) recomendados entre los recomendados, siendo los de color azul los relevantes recomendador y los de color rojo los no relevantes y recomendados:

    
<div id="tabla_precision" markdown="1">

| *r&tilde;*<sub>*u*, *i*</sub> | **I1** | **I2** | **I3** | **I4** | **I5** | **I6** | **I7** | **I8** | **I9** | **I10** | **I11** | **I12** | *P**r**e**c**i**s**i**o**n*<sub>*u*</sub> |
|:----------------------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:-------:|:-------:|:-------:|:-----------------------------------------------:|
|         **U1**         |    1   |    2   |    •   |    •   |    2   |    •   |  <font color="red">3</font> |    4   |    •   |  <font color="blue">4</font>  |    1    |    •    |            1/(1+1)=0,5           |
|         **U2**         |    •   |    •   |  <font color="red">1</font> |    5   |    •   |    5   |    3   |    1   |    •   |  <font color="blue">5</font>  |    2    |    1    |            1/(1+1)=0,5           |
|         **U3**         |  <font color="red">1</font> |    •   |    •   |    2   |    •   |    1   |    •   |  <font color="red">3</font> |    4   |    •    |    •    |    •    |             0/(0+2)=0            |
|         **U4**         |    •   |    1   |  <font color="blue">4</font> |    4   |    •   |    •   |    3   |    •   |    5   |  <font color="blue">4</font>  |    •    |    1    |             2/(2+0)=1            |
|         **U5**         |  <font color="red">2</font> |    •   |  <font color="blue">5</font> |    •   |    1   |    •   |    1   |    •   |    •   |    •    |    2    |    1    |            1/(1+1)=0,5           |
|         **U6**         |    •   |    •   |  <font color="blue">5</font> |    2   |    1   |    •   |    •   |  <font color="blue">4</font> |    •   |    1    |    •    |    2    |             2/(2+0)=1            |

</div>


+ ***Recall***: Sobre las votaciones realizadas por el usuario (matriz de votos), vemos el porcentaje de items relevantes ($\theta=4$) precomendados respecto del total de relevantes, siendo los de color azul los relevantes recomendador y los de color verde los no recomendados y relevantes:


<div id="tabla_recall" markdown="1">

| *r*<sub>*u*, *i*</sub> | **I1** | **I2** | **I3** | **I4** | **I5** | **I6** | **I7** | **I8** | **I9** | **I10** | **I11** | **I12** | *R**e**c**a**l**l*<sub>*u*</sub> |
|:----------------------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:------:|:-------:|:-------:|:-------:|:--------------------------------:|
|         **U1**         |    1   |    2   |    •   |    •   |    2   |    •   |    3   |  <font color="green">4</font> |    •   |  <font color="blue">4</font>  |    1    |    •    |       1/(1+1)=0,5       |
|         **U2**         |    •   |    •   |    1   |  <font color="green">5</font> |    •   |  <font color="green">5</font> |    3   |    1   |    •   |  <font color="blue">5</font>  |    2    |    1    |       1/(1+2)=0,33      |
|         **U3**         |    1   |    •   |    •   |    2   |    •   |    1   |    •   |    3   |  <font color="green">4</font> |    •    |    •    |    •    |        0/(0+1)=0        |
|         **U4**         |    •   |    1   |  <font color="blue">4</font> |  <font color="green">4</font> |    •   |    •   |    3   |    •   |  <font color="green">5</font> |  <font color="blue">4</font>  |    •    |    1    |       2/(2+2)=0,5       |
|         **U5**         |    2   |    •   |  <font color="blue">5</font> |    •   |    1   |    •   |    1   |    •   |    •   |    •    |    2    |    1    |        1/(1+0)=1        |
|         **U6**         |    •   |    •   |  <font color="blue">5</font> |    2   |    1   |    •   |    •   |  <font color="blue">4</font> |    •   |    1    |    •    |    2    |        2/(2+0)=1        |

</div>


* Siendo la *Precision* y el *Recall* del sistema los siguientes:

    $$precision=\frac{1}{\#U}\cdot \sum_{u \in U}precision_{u} = \frac{0,5+0,5+0+1+0,5+1}{6}=0,58 $$
       
    $$recall=\frac{1}{\#U}\cdot \sum_{u \in U}recall_{u} = \frac{0,5+0,33+0+0,5+1+1}{6}=0,56 $$

<hr>


# <a name="M3">3. Evaluación de las listas de recomendaciones</a>


* Las medidas de evaluación de las recomendaciones suelen reportar unos resultados bastante representativos del funcionamiento del sistema. Sin embargo, sus resultados no siempre se ajustan correctamente a la satisfacción de los usuarios con las recomendaciones recibidas. 


* Por lo general, un sistema de recomendación ***proporciona a cada usuario una lista ordenada que contiene 'N' recomendaciones***, siendo la primera recomendación de dicha lista el item que el sistema considera que se ajusta más al perfil del usuario, la segunda, el segundo item que mejor lo haga y así sucesivamente.


* Las medidas de *Precisión*, *Recall* y *F1* no tienen en consideración en qué posición de la lista estaba el item en el que acertamos o fallamos una predicción. Sin embargo, desde el punto de vista del usuario, el sentido común indica que son asumibles errores en las últimas posiciones de la lista de recomendaciones, pero no en las primeras. 


* Supongamos ***dos sistemas de recomendación que proporciona 10 recomendaciones*** a los usuarios. Para un usuario aleatorio, ***el primera sistema acierta en las 5 primeras recomendaciones y falla en las 5 últimas*** y el ***segundo sistema de recomendación falla las 5 primeras recomendaciones y acierta las 5 últimas***. Ambos sistemas tienen una precisión de 0.5, pero ¿qué sistema ofrece más confianza al usuario?


* **nDCG (*normalized Discounted Cumulative Gain*)** es una medida de calidad basada en listas de recomendaciones. Básicamente se encarga de comparar las recomendaciones proporcionadas en una lista con las recomendaciones que idealmente deberían haberse producido. Esta medida además ***da mucha más importancia a los aciertos (o los fallos) producidos en las primeras posiciones de la lista que a los que se producen en las últimas***.


* Definimos el *nDCG* del usuario *u* como el *Discounted Cumulative Gain* dividido entre el *Ideal Discounted Cumulative Gain*:


$$nDCG_u = \frac {DCG_u} {IDCG_u}$$

$$DCG_u = \sum_{i \in R_u} \frac {2^{r_{u,i}} - 1} {log_2(pos(i)+1)}$$

$$IDCG_u = \sum_{i \in I^T_u} \frac {2^{r_{u,i}} - 1} {log_2(ipos(i)+1)}$$


* Donde:
<span></span><br><br>
    + $R_u$ representa el conjunto de items de test recomendados al usuario $u$
<span></span><br><br>
    + $I^T_u$ representa los items de test votados por el usuario $u$
<span></span><br><br>
    + $pos(i)$ representa la posición que ocupa el item $i$ en la lista de recomendaciones
<span></span><br><br>
    + $ipos(i)$ representa la posición que ocupa el item $i$ en la lista ideal de recomendaciones (esto es, los items de test del usuario ordenados de mayor a menor valoración).


* Finalmente, definimos el $nDCG$ del sistema como el promedio de dicha medida para todos los usuarios de test:

$$nDCG = \frac{ \sum_{u \in U^T} nDCG_u }{ \#U^T }$$


<hr>


# <a name="M4">4. Otras Métricas de Evaluación de los Sistemas de Recomendación</a>


* Tradicionalmente, las medidas de calidad se empleaban para medir la bondad de las predicciones, las recomendaciones y las listas de recomendaciones. 


* Sin embargo, en los últimos tiempos, se ha detectado una importante carencia de estas medidas para evaluar otros factores más subjetivos de las recomendaciones. 


* Estas nuevas medidas se engloban dentro de las denominadas "*beyond accuracy*", cuya traducción más literal podría considerarse como "*más allá de la precisión*". 


* Dentro de estas medidas podemos encontrar:
<span></span><br><br>
    - ***Novelty***: Permite evaluar la novedad de las recomendaciones. Por ejemplo, un sistema de recomendación que indique que nos va a gustar *El Padrino* si no la hemos valorado se considera poco novedoso, sin embargo, si nos indica que nos va a gustar una película de cine alternativo que poca gente conoce se considera muy novedoso.
<span></span><br><br>
    - ***Stability***: Esta medida busca medir la estabilidad del sistema de recomendación frente a la nueva información incorporada al mismo. Lo deseable es que un sistema que ya disponga de cientos de miles de votos no varíe demasiado las recomendaciones proporcioandas cuando se incorporen unos pocos votos nuevos.
<span></span><br><br>
    - ***Diversity***: Esta medida se centra en evaluar la diversidad en las recomendaciones. Por ejemplo, si estamos buscando un restaurante para ir a cenar, no queremos que el sistema de recomendación nos proporciones únicamente restaurantes italianos, es preferible que nos indique cierta variedad de comida para que podamos elegir la que más nos interese.


<hr>


*Este documento ha sido desarrollado por **Ricardo Moya**, basandose en el material creado por **Fernando Ortega**. Dpto. Sistemas Informáticos, ETSI de Sistemas Informáticos, Universidad Politécnica de Madrid.* respetando la licencia: "Atribución-NoComercial-CompartirIgual" definida por **Creative Commons Corporation**.


<img src="./imgs/CC_BY-NC-SA.png" alt="CC BY-NC">

<p style="text-align:center"><b>Atribución-NoComercial-CompartirIgual</b></p>