# A Hybrid Probabilistic Multiobjective Evolutionary Algorithm for Commercial Recommendation Systems

Este archivo contiene una implementación del algoritmo HP-MOEA (Hybrid Probabilistic Multiobjective Evolutionary Algorithm), el cual integra técnicas de sistemas de recomendación con algoritmos evolutivos de optimización multiobjetivo. La descripción detallada del enfoque original se encuentra en este [paper](https://ieeexplore.ieee.org/abstract/document/9363322).


## Requerimientos

Para este proyecto se utilizan las siguientes bibliotecas: NumPy, Pandas, Scikit-learn y Pymoo.

Asegúrese de instalar las dependencias ejecutando el siguiente comando:

In [10]:
%pip install numpy pandas scikit-learn pymoo

Note: you may need to restart the kernel to use updated packages.


## Preprocesamiento de datos

Iniciaremos con el preprocesamiento de los datos utilizando el dataset MovieLens, desarrollado por la Universidad de Minnesota, el cual está disponible para uso libre con fines de investigación. Este dataset contiene calificaciones asignadas por usuarios a diversas películas. En esta implementación se utilizará la versión de 100,000 calificaciones, que abarca el período comprendido entre 1996 y 2018.

Para más información sobre el dataset, puede consultarse el siguiente [enlace oficial](https://grouplens.org/datasets/movielens/)

Para ver detalles de la implemetación del preprocesamiento, vea el archivo preprocess.py

In [11]:
dataset_100k_path = '../../datasets/ml-latest-small/ratings.csv'
dataset_20m_path = '../../datasets/movielens-20m-dataset/rating.csv'
output_path = './data'
top_usuarios = 10000
top_peliculas = 2000

In [12]:
import preprocess

preprocess.main(dataset_100k_path, output_path, top_usuarios, top_peliculas)


Leyendo el dataset desde: ../../datasets/ml-latest-small/ratings.csv
Ajustando los IDs de usuario para que comiencen desde 0
Creando un mapeo para los IDs de películas
Eliminando la columna 'timestamp'

Tamaño del dataframe original: 100836
Contando la cantidad de ratings por usuario y por película
Seleccionando los 10000 usuarios y 2000 películas más comunes
Filtrando el dataframe para que solo contenga los usuarios y películas seleccionados
Creando nuevos mapeos para los IDs de usuario y película
ID máximo de usuario: 609
ID máximo de película: 1999
Tamaño del dataframe reducido: 78305

Barajando el dataframe
Llamando a: update_user2movie_and_movie2user
Llamando a: update_usermovie2rating_test
Guardando los diccionarios en archivos
user2movie guardado en ./data/user2movie.json
movie2user guardado en ./data/movie2user.json
usermovie2rating guardado en ./data/usermovie2rating.json
usermovie2rating_test guardado en ./data/usermovie2rating_test.json


## Filtrado colaborativo basado en usuarios

El siguente paso luego del preprocesamiento de los datos para HP-MOEA, es calcular la puntuación esperada de los ítems que los usuarios aun no han calificado, para ello se emplea el filtrado colaborativo basado en usuarios, la cual es la tecnica mas sencilla de los S.R

Para ver mas detalles de como se implemento el filtrado colaborativo basado en usuarios, ver el archivo User_based_CF.py


In [13]:
import User_based_CF

K = 25
limit = 5
calcular_pesos = False
hacer_test = False

User_based_CF.main(output_path, K, limit, calcular_pesos, hacer_test)

Cargamos los datos preprocesados...

Longitud de los datos preprocesados:
user2movie:  610
movie2user:  8969
usermovie2rating:  80668
usermovie2rating_test:  20168

Numero total de usuarios:  610
Numero total de ítems (peliculas):  9724

Iniciamos las predicciones con User Based Collaborative Filtering...
[2025-03-09 19:26:52] Prediccion: 0.0%, Transcurrido: 0.06 segundos
[2025-03-09 19:26:54] Prediccion: 4.92%, Transcurrido: 1.85 segundos
[2025-03-09 19:26:55] Prediccion: 9.84%, Transcurrido: 3.57 segundos
[2025-03-09 19:26:57] Prediccion: 14.75%, Transcurrido: 5.31 segundos
[2025-03-09 19:26:59] Prediccion: 19.67%, Transcurrido: 7.09 segundos
[2025-03-09 19:27:01] Prediccion: 24.59%, Transcurrido: 8.86 segundos
[2025-03-09 19:27:02] Prediccion: 29.51%, Transcurrido: 10.61 segundos
[2025-03-09 19:27:04] Prediccion: 34.43%, Transcurrido: 12.40 segundos
[2025-03-09 19:27:06] Prediccion: 39.34%, Transcurrido: 14.21 segundos
[2025-03-09 19:27:08] Prediccion: 44.26%, Transcurrido: 15.99 se