In [1]:
import pandas as pd
import numpy as np
import os
from dotenv import load_dotenv
import tensorflow as tf

In [2]:
load_dotenv()

FILENAME = "cleaned_ratings.csv"
data_path = os.getenv("FILES_LOCATION")
RECOMMENDER_TYPE = "collaborative_filtering"
PROJECT_ROOT_DIR = "."
images_path = os.path.join(PROJECT_ROOT_DIR, data_path, "PNG", RECOMMENDER_TYPE)
os.makedirs(images_path, exist_ok=True)

def save_fig(fig_id, tight_layout=True, extension="png", resolution=300):  # Función para guardar las figuras que se vayan generando
    img_path = os.path.join(IMAGES_PATH, fig_id + "." + extension)
    if tight_layout:
        plt.tight_layout()
    plt.savefig(img_path, format=extension, dpi=resolution)

In [3]:
from matplotlib import pyplot as plt

# Configuración de parámetros de matplotlib

plt.rc("font", size=14)
plt.rc("axes", labelsize=14, titlesize=14)
plt.rc("legend", fontsize=14)
plt.rc("xtick", labelsize=10)
plt.rc("ytick", labelsize=10)

In [4]:
df = pd.read_csv(os.path.join(data_path, "CSV", FILENAME), low_memory=False)

# Collaborative Filtering

El filtro colaborativo es una técnica utilizada para la recomendación de ítems, basada en las valoraciones y otros parámetros como _likes_ que los usuarios dan a los ítems. De esta forma, se realizan recomendaciones basadas en lo que otros usuarios han comprado o han visto. Al igual que en el filtro de contenido lo que hacíamos era computar la similaridad entre metadatos o sinopsis de las películas, en este caso vamos a utilizar la similaridad entre los usuarios, según las valoraciones que han dado a las películas.

Antes de nada, vamos a comprobar cuán dispersa es una matriz de usuarios, películas.

In [5]:
df_shuffled = df.drop(columns=["timestamp"]).sample(frac=1, random_state=42)
idx = int(0.9 * len(df_shuffled))
df_train = df_shuffled[:idx]
df_test = df_shuffled[idx:]

In [6]:
df_pivot = df_train.pivot_table(index="userId", columns="movieId", values="rating")
print(f"Shape of the new table {(df_pivot.shape)}")
df_pivot.sample(3)

Shape of the new table (32811, 3744)


movieId,1,2,3,4,5,6,7,8,9,10,...,162606,163645,164179,164909,166461,166528,166635,166643,168250,168252
userId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
42323,,,,,,4.0,,,,,...,,,,,,,,,,
21494,3.0,2.0,2.0,,,2.5,2.0,,2.0,2.5,...,,,,,,,,,,
193942,4.5,4.0,,,,,,,,,...,,,,,,,,,,


Nuestra matriz es demasiado dispersa, por lo que utilizaremos el _DataFrame_ importado directamente del CSV. 

## Descomposición Matricial

Vamos a factorizar nuestro _dataset_ matricial en un producto de matrices: una matriz de usuarios y una matriz de items (películas en nuestro caso). Cada matriz contendrá parámetros asociados a cada película y cada usuario, como si hiciésemos una regresión lineal por película y usuario. Para entrenar este modelo, utilizaremos el método de descenso de gradiente para que el algoritmo encuentre las variables latentes que representen las matrices descompuestas.

In [7]:
user_mapper = {usr_id: i for i, usr_id in enumerate(df_train["userId"].unique())}
movie_mapper = {mov_id: i for i, mov_id in enumerate(df_train["movieId"].unique())}

In [8]:
user_train, user_test = df_train["userId"].map(user_mapper), df_test["userId"].map(user_mapper)
movie_train, movie_test = df_train["movieId"].map(movie_mapper), df_test["movieId"].map(movie_mapper)

In [9]:
user_emb = len(user_mapper)
movie_emb = len(movie_mapper)
embedding_dim = 10

In [14]:
user_input = tf.keras.layers.Input(shape=(1,), name="user_in")
movie_input = tf.keras.layers.Input(shape=(1,), name="movie_in")

user_embeddings = tf.keras.layers.Embedding(output_dim=embedding_dim,
                                           input_dim=user_emb,
                                           input_length=1,
                                           name="user_embedding_layer")(user_input)

movie_embeddings = tf.keras.layers.Embedding(output_dim=embedding_dim,
                                             input_dim=movie_emb,
                                             input_length=1,
                                             name="movie_embedding_layer")(movie_input)

user_vector = tf.keras.layers.Reshape([embedding_dim])(user_embeddings)
movie_vector = tf.keras.layers.Reshape([embedding_dim])(movie_embeddings)

y = tf.keras.layers.Dot(1, normalize=False)([user_vector, movie_vector])

model = tf.keras.Model(inputs=[user_input, movie_input], outputs=y)
model.compile(loss="mse", optimizer=tf.keras.optimizers.Adam())

model.fit([user_train, movie_train],
          df_train["rating"],
          batch_size=64, 
          epochs=5,
          validation_split=0.1,
          shuffle=True)

Epoch 1/5
[1m170982/170982[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m306s[0m 2ms/step - loss: 2.9657 - val_loss: 0.7255
Epoch 2/5
[1m170982/170982[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m317s[0m 2ms/step - loss: 0.6964 - val_loss: 0.6555
Epoch 3/5
[1m170982/170982[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m320s[0m 2ms/step - loss: 0.6369 - val_loss: 0.6277
Epoch 4/5
[1m170982/170982[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m453s[0m 3ms/step - loss: 0.6096 - val_loss: 0.6185
Epoch 5/5
[1m170982/170982[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m470s[0m 3ms/step - loss: 0.5985 - val_loss: 0.6156


<keras.src.callbacks.history.History at 0x385041bd0>

In [15]:
y_hat = model.predict([user_test, movie_test])
y_true = df_test["rating"].values

[1m42218/42218[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m22s[0m 513us/step


In [16]:
from sklearn.metrics import mean_squared_error

rmse = np.sqrt(mean_squared_error(y_hat, y_true))
print(f"Keras Matrix Factorization RMSE: {rmse:.5f}")

Keras Matrix Factorization RMSE: 0.78386


In [29]:
df_test["predicted"] = y_hat.ravel()
df_test.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_test["predicted"] = y_hat.ravel()


Unnamed: 0,userId,movieId,rating,predicted
10095257,201586,1965,3.0,3.589502
7996409,160408,119145,2.0,3.098611
2727963,54035,4270,3.0,2.177845
10435292,208773,7361,3.5,4.139297
10794283,215723,8961,5.0,5.070157


In [32]:
models_path = os.getenv("MODELS_PATH")
collaborative_path = os.path.join(models_path, "collaborative_filtering")
if not os.path.exists(collaborative_path):
    os.mkdir(collaborative_path)
model.save(os.path.join(collaborative_path, "collaborative_matrix_decomposition.keras"))

## Deep Learning

Otra forma de crear un recomendador de filtro colaborativo es tener dos redes neuronales: una para usuario y otra para items; minimizando una función de coste que nos permita medir la distancia entre los vectores codificados de cada red (típicamente la norma $L_{2}$). También puede realizarse algo similar a lo que hicimos en el apartado anterior, pasar los usuarios y películas por capas separadas de Embedding y concatenar las salidas para llevarlas a una red neuronal común. Debido a que el volumen de datos es relativamente grande, vamos a utilizar el segundo acercamiento, ya que tardará menos en ser entrenado.

In [35]:
user_emb_dim = 20
movie_emb_dim = 20

user_input = tf.keras.layers.Input(shape=(1,), name="user_in")
movie_input = tf.keras.layers.Input(shape=(1,), name="movie_in")


user_embeddings = tf.keras.layers.Embedding(output_dim=user_emb_dim, 
                           input_dim=user_emb,
                           input_length=1, 
                           name="user_embedding")(user_input)

movie_embeddings = tf.keras.layers.Embedding(output_dim=movie_emb_dim, 
                            input_dim=movie_emb,
                            input_length=1, 
                            name="movie_embedding")(movie_input)


user_vector = tf.keras.layers.Reshape([user_emb_dim])(user_embeddings)
movie_vector = tf.keras.layers.Reshape([movie_emb_dim])(movie_embeddings)
concat = tf.keras.layers.Concatenate()([user_vector, movie_vector])


dense1 = tf.keras.layers.Dense(units=128, activation="relu", kernel_initializer="he_normal")(concat)
dense2 = tf.keras.layers.Dense(units=64, activation="relu", kernel_initializer="he_normal")(dense1)
y = tf.keras.layers.Dense(units=1, activation="linear")(dense2)


model = tf.keras.Model(inputs=[user_input, movie_input], outputs=y)
model.compile(loss="mse", optimizer="adam")


model.fit([user_train, movie_train],
          df_train["rating"],
          batch_size=128, 
          epochs=8,
          validation_split=0.1,
          shuffle=True)

Epoch 1/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m307s[0m 4ms/step - loss: 0.7626 - val_loss: 0.6407
Epoch 2/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m300s[0m 4ms/step - loss: 0.6219 - val_loss: 0.6105
Epoch 3/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m305s[0m 4ms/step - loss: 0.5869 - val_loss: 0.5886
Epoch 4/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m302s[0m 4ms/step - loss: 0.5632 - val_loss: 0.5761
Epoch 5/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m322s[0m 4ms/step - loss: 0.5466 - val_loss: 0.5695
Epoch 6/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m327s[0m 4ms/step - loss: 0.5363 - val_loss: 0.5662
Epoch 7/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m337s[0m 4ms/step - loss: 0.5277 - val_loss: 0.5640
Epoch 8/8
[1m85491/85491[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m345s[0m 4ms/step - loss: 0.5217 - val_loss: 0.5630


<keras.src.callbacks.history.History at 0x44d459450>

In [36]:
y_hat = model.predict([user_test, movie_test])
y_true = df_test["rating"].values

[1m42218/42218[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m12s[0m 289us/step


In [37]:
rmse = np.sqrt(mean_squared_error(y_hat, y_true))
print(f"Deep Learning RMSE: {rmse:.5f}")

Deep Learning RMSE: 0.74991


In [38]:
df_test["predicted_deep"] = y_hat.ravel()
df_test.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_test["predicted_deep"] = y_hat.ravel()


Unnamed: 0,userId,movieId,rating,predicted,predicted_deep
10095257,201586,1965,3.0,3.589502,3.562252
7996409,160408,119145,2.0,3.098611,3.508584
2727963,54035,4270,3.0,2.177845,2.304413
10435292,208773,7361,3.5,4.139297,4.145404
10794283,215723,8961,5.0,5.070157,4.698391


In [39]:
model.save(os.path.join(collaborative_path, "collaborative_deep_learning.keras"))

En este _notebook_ hemos visto cómo realizar un sistema recomendador basado en el filtro colaborativo. Este sistema podría combinarse con uno basado en contenido para tener un recomendador híbrido. En un entorno de producción, este sistema colaborativo recomendaría a un nuevo usuario películas basadas en las valoraciones medias y a medida que el usuario consumiese películas, se las recomendaría en base a la similaridad con otros usuarios. 

En el filtro colaborativo, a parte de las valoraciones de los usuarios, podríamos realizar recomendaciones basadas en las valoraciones y la puntuación asociada a cada género de la película. Esta puntuación asociada al género podría inferirse con un algoritmo de filtro colaborativo como el que hemos realizado en este _notebook_.