# Métricas de Error en Sistemas de Recomendación con Filtro Colaborativo

En los sistemas de recomendación, es importante tener una forma de medir qué tan buenas son nuestras predicciones. Para esto, utilizamos métricas de error. Aquí están algunas de las más comunes:

## Error Cuadrático Medio (RMSE)

El Error Cuadrático Medio (RMSE, por sus siglas en inglés) es una de las métricas de error más comúnmente utilizadas en los sistemas de recomendación. Se calcula tomando la raíz cuadrada de la media de los errores al cuadrado. En otras palabras, para cada predicción que hacemos, calculamos la diferencia entre la predicción y el valor real, elevamos al cuadrado esa diferencia, y luego tomamos la media de todas esas diferencias al cuadrado. Finalmente, tomamos la raíz cuadrada de esa media. La fórmula es la siguiente:

$$RMSE = \sqrt{\frac{1}{N}\sum_{i=1}^{N}(y_i - \hat{y}_i)^2}$$

Donde:
- $y_i$ es el valor real
- $\hat{y}_i$ es el valor predicho
- $N$ es el número total de predicciones

## Error Absoluto Medio (MAE)

El Error Absoluto Medio (MAE, por sus siglas en inglés) es otra métrica de error comúnmente utilizada. Se calcula tomando la media de los errores absolutos. En otras palabras, para cada predicción que hacemos, calculamos la diferencia entre la predicción y el valor real, tomamos el valor absoluto de esa diferencia, y luego tomamos la media de todas esas diferencias absolutas. La fórmula es la siguiente:

$$MAE = \frac{1}{N}\sum_{i=1}^{N}|y_i - \hat{y}_i|$$

Donde:
- $y_i$ es el valor real
- $\hat{y}_i$ es el valor predicho
- $N$ es el número total de predicciones

Estas métricas nos dan una idea de cuánto se desvían nuestras predicciones de los valores reales. En general, cuanto menor sea el valor de estas métricas, mejor será nuestro sistema de recomendación.

## Matriz de Calificaciones

Una matriz de calificaciones es una estructura de datos que se utiliza en los sistemas de recomendación para almacenar las calificaciones que los usuarios han dado a los elementos. En esta matriz, las filas representan a los usuarios y las columnas representan a los elementos. El valor en la celda en la i-ésima fila y la j-ésima columna representa la calificación que el i-ésimo usuario ha dado al j-ésimo elemento.

Por ejemplo, si tenemos 5 usuarios y 4 elementos, la matriz de calificaciones podría ser algo como esto:

|   | Elemento 1 | Elemento 2 | Elemento 3 | Elemento 4 |
|---|------------|------------|------------|------------|
| Usuario 1 |     5      |     3      |     0      |     1      |
| Usuario 2 |     4      |     0      |     0      |     1      |
| Usuario 3 |     1      |     1      |     0      |     5      |
| Usuario 4 |     1      |     0      |     0      |     4      |
| Usuario 5 |     0      |     1      |     5      |     4      |

En este caso, el Usuario 1 ha dado una calificación de 5 al Elemento 1, una calificación de 3 al Elemento 2, y así sucesivamente. Los ceros representan las calificaciones que aún no se han dado.

A continuación, vamos a implementar un ejemplo de una matriz de calificaciones en Python.

In [15]:
# Crear una matriz de calificaciones de ejemplo
import numpy as np
import pandas as pd
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

print('Matriz de calificaciones:')
print(ratings)

Matriz de calificaciones:
[[5 3 0 1]
 [4 0 0 1]
 [1 1 0 5]
 [1 0 0 4]
 [0 1 5 4]]


# Sistema de Recomendación con Filtro Colaborativo

Un sistema de recomendación con filtro colaborativo es un tipo de sistema de recomendación que predice el interés de un usuario en un producto o servicio basándose en las preferencias de otros usuarios con gustos similares. Este enfoque se basa en la idea de que si dos usuarios están de acuerdo en un tema, es probable que estén de acuerdo en otros temas.

El filtro colaborativo se puede dividir en dos subtipos: basado en memoria y basado en modelo.

1. **Filtro colaborativo basado en memoria:** Este enfoque utiliza las calificaciones de los usuarios para calcular la similitud entre los usuarios o los elementos. Las técnicas comunes de este enfoque incluyen el filtrado colaborativo basado en el usuario (donde se recomiendan elementos que usuarios similares han gustado en el pasado) y el filtrado colaborativo basado en el elemento (donde se recomiendan elementos similares a los que el usuario ha gustado en el pasado).

2. **Filtro colaborativo basado en modelo:** Este enfoque utiliza técnicas de aprendizaje automático para predecir las calificaciones de los usuarios. Los modelos comunes incluyen el modelo de factorización matricial (donde se descompone la matriz de calificaciones de los usuarios en el producto de dos matrices de menor rango) y el modelo de factorización de máquinas de vectores de soporte (donde se utiliza una máquina de vectores de soporte para predecir las calificaciones de los usuarios).

A continuación, vamos a implementar un ejemplo de un sistema de recomendación con filtro colaborativo basado en memoria utilizando Python.

In [16]:
# Importamos las librerías necesarias
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# Creamos una matriz de calificaciones de ejemplo
ratings = np.array([
    [5, 3, 0, 1],
    [4, 0, 0, 1],
    [1, 1, 0, 5],
    [1, 0, 0, 4],
    [0, 1, 5, 4],
])

# Calculamos la similitud del coseno entre los elementos
item_similarity = cosine_similarity(ratings.T)
print('Matriz de similitud de elementos:')
print(item_similarity)

# Predecimos las calificaciones
def predict(ratings, similarity):
    return ratings.dot(similarity) / np.array([np.abs(similarity).sum(axis=1)])

item_prediction = predict(ratings, item_similarity)
print('\nPredicciones de calificaciones:')
print(item_prediction)

Matriz de similitud de elementos:
[[1.         0.73568078 0.         0.35736521]
 [0.73568078 1.         0.30151134 0.4710412 ]
 [0.         0.30151134 1.         0.52075564]
 [0.35736521 0.4710412  0.52075564 1.        ]]

Predicciones de calificaciones:
[[3.61406657 2.85039076 0.78215195 1.78785012]
 [2.08182965 1.36102343 0.28577352 1.03418188]
 [1.6829572  1.63098335 1.59432706 2.48105762]
 [1.16072979 1.04449836 1.14309406 1.85485935]
 [1.03444532 1.75092224 4.05238857 3.01163532]]


## Algoritmo de Recomendación Basado en los N-Primeros

El algoritmo de recomendación basado en los N-Primeros es un enfoque simple pero efectivo para los sistemas de recomendación. La idea básica es recomendar los N elementos más populares o más calificados a los usuarios. Este enfoque es especialmente útil cuando no tenemos información previa sobre las preferencias de los usuarios, lo que se conoce como el problema del inicio en frío.

El algoritmo de los N-Primeros es fácil de implementar y computacionalmente eficiente, pero tiene algunas limitaciones. En particular, este enfoque no personaliza las recomendaciones para cada usuario y puede conducir a una falta de diversidad en las recomendaciones.

A continuación, vamos a implementar un ejemplo de un algoritmo de recomendación basado en los N-Primeros en Python. Para este ejemplo, vamos a asumir que tenemos una matriz de calificaciones de los usuarios a los elementos, y vamos a recomendar los N elementos con las calificaciones más altas.

In [17]:
# Función para recomendar los N elementos con las calificaciones más altas
def recommend_top_n(ratings, n):
    # Calcular la calificación media de cada elemento
    item_means = ratings.mean(axis=0)

    # Obtener los índices de los N elementos con las calificaciones más altas
    top_n_items = np.argsort(item_means)[-n:]

    return top_n_items

# Recomendar los 2 elementos con las calificaciones más altas
top_2_items = recommend_top_n(ratings, 2)
print('Los 2 elementos con las calificaciones más altas son:', top_2_items)

Los 2 elementos con las calificaciones más altas son: [0 3]


## Algoritmo de Recomendación Slope One

Slope One es un algoritmo de recomendación basado en la idea de hacer predicciones simples y eficientes. La idea básica del algoritmo Slope One es calcular la diferencia promedio en las calificaciones entre un par de elementos y luego usar estas diferencias para predecir las calificaciones de los elementos no calificados.

El algoritmo Slope One tiene varias ventajas. En primer lugar, es simple y fácil de entender. En segundo lugar, es eficiente en términos de tiempo y espacio. En tercer lugar, puede manejar nuevas calificaciones, usuarios y elementos de manera incremental sin necesidad de recomputar todas las diferencias.

A continuación, vamos a implementar un ejemplo de un algoritmo de recomendación Slope One en Python. Para este ejemplo, vamos a asumir que tenemos una matriz de calificaciones de los usuarios a los elementos, y vamos a usar el algoritmo Slope One para predecir las calificaciones de los elementos no calificados.

In [18]:
# Importar la biblioteca de recomendación de Surprise
from surprise import Dataset, Reader, SlopeOne, accuracy
from surprise.model_selection import train_test_split

# Crear un conjunto de datos de ejemplo
ratings_dict = {
    'item': [1, 1, 2, 2, 3, 3, 4, 4, 5, 5],
    'user': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'rating': [1, 2, 2, 4, 2.5, 4, 4.5, 5, 3, 2]
}

# Definir un lector para el rango de calificaciones
reader = Reader(rating_scale=(1, 5))

# Crear el conjunto de datos de las calificaciones
data = Dataset.load_from_df(pd.DataFrame(ratings_dict), reader)

# Dividir el conjunto de datos en entrenamiento y prueba
trainset, testset = train_test_split(data, test_size=.25)

# Entrenar el algoritmo Slope One
algo = SlopeOne()
algo.fit(trainset)

# Predecir las calificaciones para el conjunto de prueba
predictions = algo.test(testset)

# Calcular RMSE
print('RMSE of Slope One: ', accuracy.rmse(predictions))

RMSE: 0.9129
RMSE of Slope One:  0.9128709291752769


## Algoritmo de Recomendación SVD

SVD, o Descomposición en Valores Singulares, es un algoritmo popular para sistemas de recomendación. Es especialmente útil en el caso de los sistemas de recomendación basados en filtrado colaborativo, donde se busca predecir la calificación que un usuario daría a un elemento basándose en las calificaciones dadas por otros usuarios.

La idea básica detrás de SVD es que podemos descomponer una matriz en tres matrices separadas:

$$M = U \Sigma V^T$$

Donde:
- $M$ es la matriz original (en el caso de los sistemas de recomendación, esta sería la matriz de calificaciones de los usuarios a los elementos).
- $U$ es una matriz que representa la relación entre los usuarios y los conceptos latentes.
- $\Sigma$ es una matriz diagonal que contiene los valores singulares (que representan la fuerza de cada concepto latente).
- $V^T$ es una matriz que representa la relación entre los elementos y los conceptos latentes.

Una vez que tenemos estas tres matrices, podemos usarlas para predecir las calificaciones de los elementos no calificados. Para hacer esto, simplemente multiplicamos las tres matrices juntas para obtener una matriz de calificaciones predichas.

A continuación, vamos a implementar un ejemplo de un algoritmo de recomendación SVD en Python. Para este ejemplo, vamos a asumir que tenemos una matriz de calificaciones de los usuarios a los elementos, y vamos a usar el algoritmo SVD para predecir las calificaciones de los elementos no calificados.

In [19]:
# Importar la biblioteca de recomendación de Surprise
from surprise import Dataset, Reader, SVD, accuracy
from surprise.model_selection import train_test_split

# Crear un conjunto de datos de ejemplo
ratings_dict = {
    'item': [1, 1, 2, 2, 3, 3, 4, 4, 5, 5],
    'user': ['A', 'B', 'A', 'B', 'A', 'B', 'A', 'B', 'A', 'B'],
    'rating': [1, 2, 2, 4, 2.5, 4, 4.5, 5, 3, 2]
}

# Definir un lector para el rango de calificaciones
reader = Reader(rating_scale=(1, 5))

# Crear el conjunto de datos de las calificaciones
data = Dataset.load_from_df(pd.DataFrame(ratings_dict), reader)

# Dividir el conjunto de datos en entrenamiento y prueba
trainset, testset = train_test_split(data, test_size=.25)

# Entrenar el algoritmo SVD
algo = SVD()
algo.fit(trainset)

# Predecir las calificaciones para el conjunto de prueba
predictions = algo.test(testset)

# Calcular RMSE
print('RMSE of SVD: ', accuracy.rmse(predictions))

RMSE: 1.9192
RMSE of SVD:  1.9191912885313167


# Ejercicios

Ahora que hemos revisado los conceptos básicos de los sistemas de recomendación con filtro colaborativo, es hora de poner en práctica lo que hemos aprendido. Aquí hay algunos ejercicios para que los desarrolles:

## Ejercicio 1: Matriz de Calificaciones

Crea una matriz de calificaciones de 5x5 con datos generados aleatoriamente. Luego, utiliza la función `mean()` para calcular la calificación media de cada usuario.

## Ejercicio 2: Algoritmo de los N-primeros

Implementa el algoritmo de los N-primeros. Dada una matriz de calificaciones y un número N, tu función debe devolver los N primeros elementos recomendados para cada usuario.

## Ejercicio 3: Algoritmo SVD

Utiliza la descomposición en valores singulares (SVD) para hacer recomendaciones basadas en la matriz de calificaciones que creaste en el Ejercicio 1. Compara los resultados con los obtenidos en el Ejercicio 2.

In [20]:
#Ejercicio 1
import numpy as np

# Crear matriz de calificaciones de 5x5 con datos aleatorios
ratings_matrix = np.random.randint(1, 6, size=(5, 5))

# Imprimir la matriz de calificaciones
print("Matriz de Calificaciones:")
print(ratings_matrix)

# Calcular la calificación media de cada usuario
mean_ratings = np.mean(ratings_matrix, axis=1)

# Imprimir las calificaciones medias de cada usuario
print("\nCalificación media de cada usuario:")
print(mean_ratings)

Matriz de Calificaciones:
[[5 2 4 4 2]
 [2 4 1 3 1]
 [1 5 5 1 1]
 [5 4 5 1 4]
 [5 3 1 4 5]]

Calificación media de cada usuario:
[3.4 2.2 2.6 3.8 3.6]


In [21]:
#Ejercicio 2

import numpy as np

def n_top_recommendations(ratings_matrix, N):
    # Obtener el número de usuarios y elementos
    num_users, num_items = ratings_matrix.shape
    
    # Inicializar una matriz para almacenar las recomendaciones
    recommendations = np.zeros((num_users, N), dtype=int)
    
    # Recorrer cada usuario
    for user in range(num_users):
        # Obtener las calificaciones del usuario
        user_ratings = ratings_matrix[user]
        
        # Obtener los índices de los N elementos con las calificaciones más altas
        top_indices = np.argsort(user_ratings)[::-1][:N]
        
        # Almacenar los índices de los elementos recomendados para el usuario
        recommendations[user] = top_indices
    
    return recommendations

# Ejemplo de uso
ratings_matrix = np.array([
    [5, 4, 0, 0, 3],
    [0, 0, 4, 5, 2],
    [1, 0, 0, 4, 0],
    [0, 3, 5, 0, 0]
])

N = 3

recommendations = n_top_recommendations(ratings_matrix, N)

# Imprimir las recomendaciones para cada usuario
for user, rec_items in enumerate(recommendations):
    print(f"Usuario {user + 1}: {rec_items}")


Usuario 1: [0 1 4]
Usuario 2: [3 2 4]
Usuario 3: [3 0 4]
Usuario 4: [2 1 4]


In [22]:
#Ejercicio 3
import numpy as np
from scipy.linalg import svd

# Matriz de calificaciones generada en el Ejercicio 1
ratings_matrix = np.array([
    [5, 4, 0, 0, 3],
    [0, 0, 4, 5, 2],
    [1, 0, 0, 4, 0],
    [0, 3, 5, 0, 0]
])

# Descomposición SVD
U, S, Vt = svd(ratings_matrix)

# Número de componentes latentes
k = 2

# Aproximación SVD truncada
S_k = np.diag(S[:k])
U_k = U[:, :k]
Vt_k = Vt[:k, :]

