In [55]:
import os
os.chdir('../movies')
from movieLens import MovieLens

import pandas as pd
import numpy as np
import itertools
from surprise import Dataset, Reader, KNNBasic, SVD, KNNWithMeans, KNNWithZScore
from surprise.model_selection import train_test_split
from surprise import accuracy

from collections import defaultdict

In [2]:
ml = MovieLens()

In [3]:
ratings = ml.ratings
ratings.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [63]:
ratings[ratings["userId"] == 603]

Unnamed: 0,userId,movieId,rating,timestamp
96100,603,1,4.0,963178147
96101,603,6,4.0,963177624
96102,603,16,4.0,963179585
96103,603,17,3.0,954482210
96104,603,21,5.0,963177624
...,...,...,...,...
97038,603,4815,1.0,1002403253
97039,603,4823,1.0,1002403269
97040,603,4855,4.0,1002403400
97041,603,5060,3.0,953926877


In [4]:
# Define the Reader object to parse the dataframe
reader = Reader(rating_scale=(ratings['rating'].min(), ratings['rating'].max()))

# Load the dataframe as a ratings dataset
ratingsDataset = Dataset.load_from_df(ratings[['userId', 'movieId', 'rating']], reader)

In [5]:
# Hago este split para sacar métricas después
trainset, testset = train_test_split(ratingsDataset, test_size=0.2, random_state=42)

In [6]:
# Voy a usar la misma configuración y el mismo modelo que has usado en tu caso
sim_options = {'name': 'pearson',  # alternative: cosine
               'user_based': True, # compute  similarities between users
               'min_support':5     # minimum number of common items between users
               }
modelA = KNNWithMeans(sim_options=sim_options)
modelA.fit(trainset)
simsMatrix = modelA.compute_similarities()

Computing the pearson similarity matrix...
Done computing similarity matrix.
Computing the pearson similarity matrix...
Done computing similarity matrix.


In [7]:
modelB = SVD()
modelB.fit(trainset)

<surprise.prediction_algorithms.matrix_factorization.SVD at 0x1381bd96670>

# Métricas

Vamos a poner a comparar los dos modelos, en primer lugar, las métricas de predicción más simples y más básicas que serían el RMSE y el MAE, en estos casos, lo que se busca es encontrar una medida de distancia entre las predicciones de los ratings que realizan los modelos y el rating real que los usuarios han valorado.

In [8]:
predtestA = modelA.test(testset)
predtestB = modelB.test(testset)

In [64]:
antitest = trainset.build_anti_testset()
predantitestA = modelA.test(antitest)
predantitestB = modelB.test(antitest)

## Métricas de precisión 

In [9]:
print("El RMSE del modelo A es de: {}".format(accuracy.rmse(predtestA)))
print("El RMSE del modelo B es de: {}".format(accuracy.rmse(predtestB)))

RMSE: 0.9030
El RMSE del modelo A es de: 0.9029931528241073
RMSE: 0.8779
El RMSE del modelo B es de: 0.8779007754100654


In [11]:
print("El MAE del modelo A es de: {}".format(accuracy.mae(predtestA)))
print("El MAE del modelo B es de: {}".format(accuracy.mae(predtestB)))

MAE:  0.6864
El MAE del modelo A es de: 0.6864474629038703
MAE:  0.6745
El MAE del modelo B es de: 0.6744839722371379


En este caso el modelo B (SVD) esta haciendo predicciones ligeramente más precisas, aunque no mucho mejor, por lo tanto, no podemos dar ningún recomendador mejor que otro. 

Hay que tener en cuenta que estas métricas de precisión no son muy muy importantes ya que, ¿para qué quiero predecir estupendamente una película que he valorado con un 1 si no la debería recomendar nunca? O al contrario, ¿qué más me da predecir una película valorada con un 5 con un 4.8 o un 4.3 si la decisión al final va a ser la misma? Obviamente es importante tener una buena precisión de las predicciones de los ratings pero al final lo importante es que las recomendaciones que realicemos aporten valor.

Para esto lo primero es encontrar las top N recomendaciones del conjunto de test que estamos probando y comprobar cuales de estas son realmente relevantes. En este caso trabajaremos con el top 10, pero puede ser interesante tomar diferentes valores de N.

In [46]:
def GetTopN(predictions, n=10, minimumRating=4.0):
    topN = defaultdict(list)

    for userID, movieID, actualRating, estimatedRating, _ in predictions:
        if (estimatedRating >= minimumRating):
            topN[int(userID)].append((int(movieID), estimatedRating))

    for userID, ratings in topN.items():
        ratings.sort(key=lambda x: x[1], reverse=True)
        topN[int(userID)] = ratings[:n]

    return topN

In [167]:
top10modelA = GetTopN(predantitestA,minimumRating = 3.5)
top10modelB = GetTopN(predantitestB,minimumRating = 3.5)

## Métricas de relevancia

Las dos métricas que considero de más valor para evaluar un recomendador serían Precision@K y Recall@K. Para definirlos hay que tener en cuenta lo siguiente:

* Se necesita establecer un threshold mínimo para indicar un corte entre algo que se considera positivo y algo que no lo es.
* Diremos que una valoración de un usuario es **Relevante** si la ha puntuado igual o por encima de un threshold dado.
* Una recomendación será **Valorada** dentro del top K de recomendaciones si la predicción del modelo es mayor o igual a un threshold dado.

Con estas condiciones definimos la Precision@K y el Recall@K:


\begin{equation}
\text{Precision@K} = \dfrac{\# (\text{Relevantes en K}\cap\text{Valoradas en K})}{\#\text{Valoradas en K}}
\end{equation}

\begin{equation}
\text{Recall@K} = \dfrac{\# (\text{Relevantes en K}\cap\text{Valoradas en K})}{\#\text{Relevantes}}
\end{equation}

"\#" Denota el número de elementos de ese conjunto. Veamoslo con un ejemplo:

Tenemos la siguiente lista de valoraciones y predicciones para un usuario:

| Usuario | Película   | Rating | Predicción |
|---------|------------|--------|------------|
| 1       | Película A | 4.5    | 4.2        |
| 1       | Película B | 3      | 3.6        |
| 1       | Película C | 2.5    | 2.1        |
| 1       | Película D | 4      | 3.9        |
| 1       | Película E | 1.5    | 1.8        |
| 1       | Película F | 2      | 2.4        |
| 1       | Película G | 3.5    | 3.7        |
| 1       | Película H | 4.5    | 4.1        |
| 1       | Película I | 2      | 2.6        |
| 1       | Película J | 3.5    | 3.3        |

Vamos a establecer un threshold de 4 para este caso. Entonces tendríamos que las valoraciones de las películas A, D y H serían relevantes por superar este threshold.

Supongamos que queremos calcular la precision@3 (K = 3). Las recomendaciones según el modelo serían las películas A, H y D por ser los que más predicción tienen. De estas recomendaciones, consideraremos valoradas todas aquellas que superan el threshold anterior. Por lo tanto, en este caso, Solo las películas A y H serían valoradas ya que D tiene una predicción de 3.9. Ambas películas valoradas son al mismo tiempo relevantes ya que el usuario las puntuó por encima de 4. Con todo esto, la precisión sería:

\begin{equation}
\text{Precision@3} = \dfrac{2}{2} = 1
\end{equation}

Esto se interpreta de la siguiente manera: de las recomendaciones que considero valoradas todas son relevantes para el usuario. No hay ningún falso positivo.

Por otra parte, el recall@3 sería: 

\begin{equation}
\text{Recall@3} = \dfrac{2}{3}
\end{equation}

En este caso tenemos un falso negativo, ya que para el modelo la película D no supera el umbral y por tanto no es valorada pero el usuario la puntuó por igual o por encima de 4 por lo tanto si es relevante.

Aquí dejo la implementación de Surprise para calcular en cada usuario su precisión y recall en K

In [83]:
def precision_recall_at_k(predictions, k=10, threshold=3.5):
    """Return precision and recall at k metrics for each user"""

    # First map the predictions to each user.
    user_est_true = defaultdict(list)
    for uid, _, true_r, est, _ in predictions:
        user_est_true[uid].append((est, true_r))

    precisions = dict()
    recalls = dict()
    for uid, user_ratings in user_est_true.items():

        # Sort user ratings by estimated value
        user_ratings.sort(key=lambda x: x[0], reverse=True)

        # Number of relevant items
        n_rel = sum((true_r >= threshold) for (_, true_r) in user_ratings)

        # Number of recommended items in top k
        n_rec_k = sum((est >= threshold) for (est, _) in user_ratings[:k])

        # Number of relevant and recommended items in top k
        n_rel_and_rec_k = sum(
            ((true_r >= threshold) and (est >= threshold))
            for (est, true_r) in user_ratings[:k]
        )

        # Precision@K: Proportion of recommended items that are relevant
        # When n_rec_k is 0, Precision is undefined. We here set it to 0.

        precisions[uid] = n_rel_and_rec_k / n_rec_k if n_rec_k != 0 else 0

        # Recall@K: Proportion of relevant items that are recommended
        # When n_rel is 0, Recall is undefined. We here set it to 0.

        recalls[uid] = n_rel_and_rec_k / n_rel if n_rel != 0 else 0

    return precisions, recalls

In [88]:
precisionsA, recallsA = precision_recall_at_k(predtestA, k=10, threshold=3.5)
precisionsB, recallsB = precision_recall_at_k(predtestB, k=10, threshold=3.5)

Estos objetos devuelven un valor de precision y recall para cada usuario del conjunto de test en cada modelo. Para obtener un dato agregado se definen las siguientes métricas.

* **Mean Average Precision at K (MAP@K)**: Media de todas las precisiones obtenidas en el paso anterior.
* **Mean Average Recall at K (MAR@K)**: Media de todos los recalls obtenidos en el paso anterior.

In [97]:
print(f"El MAP@10 del modelo A (KNN) es de {np.mean(list(precisionsA.values()))}")
print(f"El MAP@10 del modelo B (SVD) es de {np.mean(list(precisionsB.values()))}")

El MAP@10 del modelo A (KNN) es de 0.7299186833203226
El MAP@10 del modelo B (SVD) es de 0.7466595107988552


In [98]:
print(f"El MAR@10 del modelo A (KNN) es de {np.mean(list(recallsA.values()))}")
print(f"El MAR@10 del modelo B (SVD) es de {np.mean(list(recallsB.values()))}")

El MAR@10 del modelo A (KNN) es de 0.524003569900473
El MAR@10 del modelo B (SVD) es de 0.5124586823133307


El modelo A tiene algo menos de precisión pero mejor recall, esto significa que cuando el modelo afirma que una recomendación es buena tiene menos probabilidad de acierto que el modelo B, sin embargo el modelo A ha detectado un poco más de valoraciones altas por parte de un usuario.

Otro factor importante a la hora de realizar un recomendador es la posición de la recomendación, siempre debemos intentar dejar las mejores recomendaciones de los usuarios en las primeras posiciones a la hora de mostrarlas. Consideramos las siguientes recomendaciones ordenadas por su predicción, es decir, este sería el orden que le mostraríamos al usuario en caso de recomendarle 5 películas.

| Usuario | Película   | Rating | Predicción |
|---------|------------|--------|------------|
| 1       | Película A | 4.5    | 4.6        |
| 1       | Película B | 4      | 4.4        |
| 1       | Película C | 5      | 4.2        |
| 1       | Película D | 3.5    | 4.1        |
| 1       | Película E | 5      | 4          |

Definimos la ganancia acumulada de las recomendaciones como la suma de los ratings reales de las recomendaciones anteriores, es decir:

\begin{equation}
\text{Cumulative Gain@k (CG@k)} = \sum_{i = 1}^{k} \text{Rating Real}_{k} = 4 + 4.5 + 5 + 3.5 + 5 = 22
\end{equation}

Esta métrica todavía no tiene en cuenta el orden, una manera de tener en cuenta el orden es dividir cada rating por un factor. Este factor va a penalizar más fuerte conforme avanza k. Así se define el Discounted Cumulative Gain.

\begin{equation}
\text{Discounted Cumulative Gain@k (DCG@k)} = \sum_{i = 1}^{k} \dfrac{\text{Rating Real}_{k}}{\log_{2}(i+1)} = \dfrac{4.5}{\log_{2}(2)} + \dfrac{4}{\log_{2}(3)} + \dfrac{5}{\log_{2}(4)} + \dfrac{3.5}{\log_{2}(5)} + \dfrac{5}{\log_{2}(6)} = 12.96
\end{equation}

Aquí me interesa que el modelo ponga las mejores puntuaciones reales al principio, por esa razón voy dividiendo por una cantidad cada vez mayor. Como esta métrica no está acotada, conviene encontrar una manera de reducir este número a un intervalo acotado. Para ello se considera la mejor ordenación posible de los ratings anteriores.

\begin{equation}
\text{ideal Discounted Cumulative Gain@k (iDCG@k)} = \sum_{i = 1}^{k} \dfrac{\text{Rating Real ordenado}_{k}}{\log_{2}(i+1)} = \dfrac{5}{\log_{2}(2)} + \dfrac{5}{\log_{2}(3)} + \dfrac{4.5}{\log_{2}(4)} + \dfrac{4}{\log_{2}(5)} + \dfrac{3.5}{\log_{2}(6)} = 13.48
\end{equation}

De esta manera puedo saber "como de lejos" me he quedado de la mejor ordenación posible. El cociente de ambas me devuelve un valor entre 0 y 1 que indica lo "bien" que mi modelo ha ordenado las recomendaciones

\begin{equation}
\text{Normalized Discounted Cumulative Gain@k (NDCG@k)} = \dfrac{\text{DCG}}{\text{iDCG}} = \dfrac{12.96}{13.48} = 0.96
\end{equation}

Existen maneras más agresivas de penalizar los errores de posiciones en las fórmulas anteriores. También hay que tener en cuenta que se penaliza más grande es K.

Para poder implementar esta métrica tenemos que adaptar el formato de la salida de las predicciones del modelo a un formato que permita trabajar las fórmulas anteriores.

In [111]:
def from_predictions_to_dataframe(predictions):
    data = []
    for uid, iid, true_r, est_r, _ in predictions:
        data.append([uid,iid,true_r,est_r])
        
    df = pd.DataFrame(data, columns = ["user_id", "movie_id","rating","prediction"])
    df.sort_values(["user_id","prediction"],inplace = True, ascending = [True,False])
    
    return df

dftestA = from_predictions_to_dataframe(predtestA)
dftestB = from_predictions_to_dataframe(predtestB)

Ahora ya podemos implementar la funcion que calcula el NDCG. Como esto se calcula para cada usuario, un método de agregación podría ser establecer la media de todos ellos aunque también se puede estudiar la distribución por usuario con algún gráfico.

In [141]:
def ndcg_at_k(df,k):
    grouped = df.groupby('user_id')
    ndcgs = []
    for _, group in grouped:
        group = group.head(k)
        group.reset_index(inplace = True, drop = True)
        dcg = (group['rating'] / np.log2(group.index + 2)).sum()
        ideal = group.sort_values(by='rating', ascending=False)
        ideal.reset_index(inplace = True, drop = True)
        idcg = (ideal['rating'] / np.log2(ideal.index + 2)).sum()
        ndcgs.append(dcg / idcg)
    return ndcgs, np.mean(ndcgs)

In [143]:
ndcgsA ,mean_ndcgA = ndcg_at_k(dftestA,10)
ndcgsB ,mean_ndcgB = ndcg_at_k(dftestB,10)

In [144]:
print(f"El valor promedio del NDCG del modelo A (KNN) es de: {mean_ndcgA}")
print(f"El valor promedio del NDCG del modelo B (SVD) es de: {mean_ndcgB}")

El valor de promedio del NDCG del modelo A (KNN) es de: 0.9510456458372629
El valor de promedio del NDCG del modelo B (SVD) es de: 0.9553076478975605


En este caso vemos que los dos modelos ordenan sus recomendaciones de una manera muy parecida. Hay que tener en cuenta que esta métrica no mide la calidad de las recomendaciones, ese valor te lo dan otras métricas que ya hemos visto antes. Una vez establecidas las recomendaciones, está métrica devuelve su capacidad de ordenación siendo 1 el mayor valor posible.

Otro aspecto a tener en cuenta es que al ser escalas de 0 a 5 y ser recomendaciones relativamente buenas, los valores se quedan muy cercanos a 1, en caso de usar por ejemplo una escala de acierto-error, es decir, $\{0,1\}$, notaríamos más la diferencia en las ordenaciones.

En las métricas de precisión, recall y NDCG se podrían establecer gráficos de distribución (por ejemplo, un histograma o un boxplot) utilizando todos los datos por usuario. De esta manera podremos visualizar aspectos como cuantos usuarios se salen fuera de la media, la dispersión que pueda haber en el total de usuarios o algún otro aspecto reseñable de los usuarios.

## Otras métricas de interés

El último punto de métricas que tienen interés están más relacionadas con la _variedad_ en las recomendaciones. También es importante tenerlas en cuenta a la hora de evaluar como de bueno es un recomendador. La primera de ellas que vamos a ver es la **cobertura**. La **cobertura** (coverage) mide el porcentaje de elementos distintos del catálogo que ha devuelto el modelo como recomendación al menos una vez.

In [175]:
def coverage(topNrec,total_items,users):
    rec_items = []
    
    for user in users:
        rec_items += [pred[0] for pred in topNrec[user]]
    num_rec_items = len(set(rec_items))
    
    return num_rec_items/total_items

In [177]:
coverageA = coverage(top10modelA,trainset.n_items,trainset.all_users())
coverageB = coverage(top10modelB,trainset.n_items,trainset.all_users())

print(f"La cobertura del modelo A (KNN) es de: {coverageA}")
print(f"La cobertura del modelo B (SVD) es de: {coverageB}")

La cobertura del modelo A (KNN) es de: 0.05432347670250896
La cobertura del modelo B (SVD) es de: 0.03797043010752688


Aquí vemos como las recomendaciones son poco variadas en ambos casos un 5% en el caso del KNN y algo menos de un 4% para el SVD. En 600 usuarios, solo se han recomendado, a lo más, unas 400 y pico de películas diferentes. Es muy poco teniendo en cuenta que el catálogo dispone de 8000 películas.

Una variante de la cobertura, es la **cobertura por usuario** (UserCoverage). Este valor indica el porcentaje de usuarios que han recibido, al menos, una recomendación donde el modelo entiende que es buena, es decir, una recomendación con una puntuación superior a un threshold dado.

In [178]:
def UserCoverage(topNPredicted, numUsers, ratingThreshold=0):
    hits = 0
    for userID in topNPredicted.keys():
        hit = False
        for movieID, predictedRating in topNPredicted[userID]:
            if (predictedRating >= ratingThreshold):
                hit = True
                break
        if (hit):
            hits += 1

    return hits / numUsers

In [181]:
usercoverageA = UserCoverage(top10modelA, trainset.n_users,4)
usercoverageB = UserCoverage(top10modelB, trainset.n_users,4)

print(f"La cobertura por usuario del modelo A (KNN) es de: {usercoverageA}")
print(f"La cobertura por usuario del modelo B (SVD) es de: {usercoverageB}")

La cobertura por usuario del modelo A (KNN) es de: 0.9967213114754099
La cobertura por usuario del modelo B (SVD) es de: 0.9147540983606557


Aquí vemos como el KNN encuentra en casi todos sus usuarios al menos una recomendación por encima de 4 en su predicción, mientras que el SVD solo lo hace en el 90% de los usuarios. Existe por tanto un 10% de usuarios en el modelo SVD donde no se tiene certeza de tener al menos una recomendación con puntuación alta.

Por último vamos a definir una última métrica que mide la popularidad de las recomendaciones. Esta métrica es conocida como **Novelty**. Para ello se debe establecer el concepto de popularidad dentro del conjunto de películas. Un enfoque podría ser las veces que la película ha sido calificada o también calificada por encima de un valor determinado. Vamos a construir primero esta popularidad para las películas, en este caso, por simplicidad, nos vamos a basar en el número de puntuaciones recibidas en cada película como medida de como popularidad.

In [195]:
iterator = trainset.all_ratings()
trainrank = pd.DataFrame(columns=['userid', 'movieid', 'rating'])
i = 0
for (uid, iid, rating) in iterator:
    trainrank.loc[i] = [uid, iid, rating]
    i = i+1

In [197]:
trainrank["userid"] = trainrank["userid"].astype(int)
trainrank["movieid"] = trainrank["movieid"].astype(int)

In [198]:
trainrank.head()

Unnamed: 0,userid,movieid,rating
0,0,0,4.5
1,0,398,3.0
2,0,572,4.0
3,0,501,2.5
4,0,1348,3.5


In [235]:
# Buscamos el conteo de interacciones que ha tenido una pelicula
interacciones = trainrank["movieid"].value_counts()

Por último, asignamos el 1 a la película más visitada del catálogo, el 2 a la segunda y asi sucesivamente. (Este es el enfoque del curso de udemy).

In [236]:
dict_pop = dict(zip(interacciones.index, range(1,len(interacciones)+1)))

# Otra manera de definir un ranking sería escalando el número de interacciones con un 
# minmaxscaler y se le daría un 1 a la película más popular y 0 a la que menos. De esta manera el valor de 
# Novelty quedaría acotado entre 0 y 1 entendiendo que más cerca de 1 implica recomendaciones más populares.

#interacciones = (interacciones - interacciones.min())/(interacciones.max() - interacciones.min())
#dict_pop = interacciones.to_dict()

Definimos **Novelty** como el valor promedio del ranking de las recomendaciones ofrecidas a un usuario, es decir:

\begin{equation}
\text{Novelty} = \dfrac{\sum_{u \in U} \sum_{i \in R_u} Rank(i)}{\sum_{u \in U} |R_u|}
\end{equation}

Donde:

* $U$ es el conjunto de usuarios a los que se le ha realizado al menos una recomendación
* $R_u$ es el conjunto de recomendaciones al usuario u
* $|R_u|$ es el número total de recomendaciones realizadas al usuario u
* $Rank(i)$ es el ranking de la película i, va desde 1 hasta el total de películas del conjunto.

In [237]:
def Novelty(topNPredicted,trainset, rankings):
    n = 0
    total = 0
    for userID in topNPredicted.keys():
        for rating in topNPredicted[userID]:
            movieID = rating[0]
            rank = rankings[trainset.to_inner_iid(movieID)]
            total += rank
            n += 1
    return total / n

In [239]:
noveltyA = Novelty(top10modelA,trainset, dict_pop)
noveltyB = Novelty(top10modelB,trainset, dict_pop)

print(f"El valor de Novelty del modelo A (KNN) es de: {noveltyA}")
print(f"El valor de Novelty del modelo B (SVD) es de: {noveltyB}")

El valor de Novelty del modelo A (KNN) es de: 4231.016581842062
El valor de Novelty del modelo B (SVD) es de: 405.5473842553903


Aquí vemos que el modelo SVD suele recomendar películas mucho más populares su ranking promedio se encuentra en torno a la película 400 más popular (de unas 8000 posibles) mientras que el modelo KNN incluye recomendaciones de películas que han sido mucho menos puntuadas entre los usuarios.

# Conclusiones 

En base a todo esto, ¿qué recomendador dirías que es mejor según estas métricas y todo lo que hemos evaluado antes?

# Otras opciones y referencias

Tanto en el curso como en los libros y en otros documentos podemos encontrar muchas más métricas que pueden ser interesantes (*HitRate*, *CumulativeHitRate*, *RatingHitRate*, *AverageReciprocalHitRank*, *Diversity*, *Serendipia*, *Curvas ROC*...) yo he intentado cubrir tantas como creo que nos pueden servir para evaluar correctamente un recomendador. Si ves que hay algún concepto que se nos escape a medida que vamos desarrollando podemos incluir alguna métrica más a estas.

Al mismo tiempo te dejo por aquí algunas referencias de lo que he utilizado para montar todo este notebook. Espero que te sirvan.

* Recommender Systems (Charu C. Arggarwal)
* https://medium.com/fnplus/evaluating-recommender-systems-with-python-code-ae0c370c90be
* https://towardsdatascience.com/ranking-evaluation-metrics-for-recommender-systems-263d0a66ef54#:~:text=In%20recommender%20settings%2C%20the%20hit,included%20in%20the%20recommendation%20list.
* https://github.com/jvntra/Movie_Recommendation_System_Framework
* https://github.com/NicolasHug/Surprise/blob/master/examples/precision_recall_at_k.py
* Código del curso de udemy