## **README**

**ANÁLISIS DE UN DATASET (ORIENTACIÓN DATA SCIENTIST)**

Este análisis forma parte de un proceso de evaluación del Máster Big Data & Data Science de la Universidad Complutense de Madrid y año académico 2023/2024.

**Propuesta de proyecto**:

Desarrollo de un sistema de recomendación que sugiera películas a los usuarios en función de su historial de visualización y preferencias.

**Recopilación y preprocesamiento de datos**

**Fuente de datos:** conjunto de datos de clasificaciones de usuarios y metadatos de películas. The Movies Dataset **(Kaggle)**

URL: https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset

**Descripción del conjunto de datos:**

Este conjunto de datos en Kaggle contiene metadatos de más de 45.000 películas, 26 millones de valoraciones de más de 270.000 usuarios. Incluye clasificaciones, resúmenes, géneros y créditos.

## **Licencia de los datos:**

El conjunto de datos utilizado en este proyecto está **licenciado bajo CC0: Dominio público.**


## **Agradecimientos:**

**Este proyecto utiliza datos recopilados de TMDB y GroupLens.**

### **Datos de TMDB:**

Los detalles de la película, los créditos y las palabras clave se han recopilado de la API abierta de TMDB. **Este producto utiliza la API de TMDb pero no está respaldado ni certificado por TMDb. Su API también brinda acceso a datos sobre muchas películas, actores y actrices, miembros del equipo y programas de televisión adicionales.**

### **Datos de GroupLens:**

Los conjuntos de datos de MovieLens se obtuvieron del sitio web oficial de GroupLens. Estos conjuntos de datos incluyen calificaciones y metadatos de películas recopilados de usuarios.

### **Citación para GroupLens:**

Para reconocer el uso del conjunto de datos en publicaciones, citar el siguiente artículo:

**F. Maxwell Harper y Joseph A. Konstan. 2015. Los conjuntos de datos de MovieLens: historia y contexto. Transacciones ACM sobre sistemas inteligentes interactivos (TiiS) 5, 4: 19:1–19:19. https://doi.org/10.1145/2827872.**

### **Datos de IMDb:**

Para trabajos académicos y no comerciales, IMDb ofrece una subsección de datos de IMDb para descargar únicamente para uso no comercial y no profesional. Para obtener más detalles, consultar:

https://www.imdb.com/interfaces/

Este conjunto de datos es estrictamente para uso académico y cualquier uso del contenido de IMDb en un entorno, servicio o producto comercial requiere una licencia de contenido comercial con IMDb.


### **Citación para IMDb:**

**Datos cortesía de IMDb.**

In [None]:
from google.colab import drive
import pandas as pd

# Montar Google Drive
drive.mount('/content/drive')

# Rutas de los archivos en Google Drive
#ruta_credits = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/credits.csv'
#ruta_keywords = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/keywords.csv'
#ruta_links_small = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/links_small.csv'
#ruta_links = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/links.csv'
#ruta_movies_metadata = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/movies_metadata.csv'
#ruta_ratings_small = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/ratings_small.csv'
#ruta_ratings = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/ratings.csv'
ruta_recomendador_contenido = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/recomendador_contenido.csv'
#ruta_recomendador_mejorado = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/recomendador_mejorado.csv'

# Leer los archivos CSV
#credits = pd.read_csv(ruta_credits)
#keywords = pd.read_csv(ruta_keywords)
#links_small = pd.read_csv(ruta_links_small)
#links = pd.read_csv(ruta_links)
#movies_metadata = pd.read_csv(ruta_movies_metadata)
#ratings_small = pd.read_csv(ruta_ratings_small)
#ratings = pd.read_csv(ruta_ratings)
recomendador_contenido = pd.read_csv(ruta_recomendador_contenido)
#recomendador_mejorado = pd.read_csv(ruta_recomendador_mejorado)

Mounted at /content/drive


In [None]:
recomendador_contenido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39547 entries, 0 to 39546
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Unnamed: 0            39547 non-null  int64  
 1   userId                39547 non-null  int64  
 2   movieId               39547 non-null  int64  
 3   rating                39547 non-null  float64
 4   timestamp             39547 non-null  object 
 5   year_quarter          39547 non-null  object 
 6   id                    39547 non-null  int64  
 7   genres                39547 non-null  object 
 8   vote_average          39547 non-null  float64
 9   vote_count            39547 non-null  float64
 10  popularity            39547 non-null  float64
 11  original_language     39547 non-null  object 
 12  original_title        39547 non-null  object 
 13  budget                39547 non-null  float64
 14  cast                  39547 non-null  object 
 15  crew               

# **Productivización: Recomendaciones mejoradas**
# Filtrado colaborativo (enfoque usuario)

Ahora también contaremos con las columnas **`'genres'`, `'original_language'`,`'genre_avg_popularity'`,`'cast'`, `'crew'`,`'budget'`y`'vote_average'`** del **Dataframe recomendador_contenido** al mismo tiempo que implementaremos en el código **nuevas funciones y filtros** con el **propósito de mejorar la calidad de las recomendaciones** al hacerlas **más personalizadas y relevantes para el usuario.**

In [None]:
# Eliminar columnas innecesarias del DataFrame recomendador_contenido
recomendador_mejorado = recomendador_contenido.drop(['Unnamed: 0', 'timestamp', 'year_quarter', 'id'], axis=1)

In [None]:
recomendador_mejorado.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39547 entries, 0 to 39546
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                39547 non-null  int64  
 1   movieId               39547 non-null  int64  
 2   rating                39547 non-null  float64
 3   genres                39547 non-null  object 
 4   vote_average          39547 non-null  float64
 5   vote_count            39547 non-null  float64
 6   popularity            39547 non-null  float64
 7   original_language     39547 non-null  object 
 8   original_title        39547 non-null  object 
 9   budget                39547 non-null  float64
 10  cast                  39547 non-null  object 
 11  crew                  39547 non-null  object 
 12  genre_avg_popularity  39547 non-null  float64
dtypes: float64(6), int64(2), object(5)
memory usage: 3.9+ MB


In [None]:
recomendador_mejorado.head()

Unnamed: 0,userId,movieId,rating,genres,vote_average,vote_count,popularity,original_language,original_title,budget,cast,crew,genre_avg_popularity
0,2,5,3.0,"['Drama', 'Crime']",0.71,0.003126,0.007051,fi,Ariel,0.0,"[{'cast_id': 3, 'character': 'Taisto Olavi Kas...","[{'credit_id': '52fe420dc3a36847f800001f', 'de...",0.017507
1,3,480,3.0,"['Drama', 'Comedy']",0.71,0.002487,0.004187,fi,Varjoja paratiisissa,0.0,"[{'cast_id': 5, 'character': 'Nikander', 'cred...","[{'credit_id': '52fe420dc3a36847f8000077', 'de...",0.010985
2,5,7,3.0,"['Crime', 'Comedy']",0.65,0.038295,0.016487,en,Four Rooms,0.010526,"[{'cast_id': 42, 'character': 'Ted the Bellhop...","[{'credit_id': '52fe420dc3a36847f800011b', 'de...",0.011496
3,6,11,3.0,"['Action', 'Thriller', 'Crime']",0.64,0.005613,0.010117,en,Judgment Night,0.0,"[{'cast_id': 7, 'character': 'Frank Wyatt', 'c...","[{'credit_id': '52fe420dc3a36847f800023d', 'de...",0.028615
4,11,32,3.5,"['Adventure', 'Action', 'Science Fiction']",0.81,0.481563,0.076987,en,Star Wars,0.028947,"[{'cast_id': 3, 'character': 'Luke Skywalker',...","[{'credit_id': '52fe420dc3a36847f8000437', 'de...",0.082769


In [None]:
# Guardar DataFrame en un archivo CSV
#recomendador_mejorado.to_csv('recomendador_mejorado.csv', index=False)

In [None]:
# Descargar el archivo CSV desde Google Colab
#from google.colab import files
#files.download('recomendador_mejorado.csv')

# **Recomendador mejorado**

### **Sin manejo de excepciones**

In [None]:
import pandas as pd
import random
! pip install surprise
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma
def filter_movies_by_genre_and_language(movie_id, dataframe):
    movie_genre = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]
    filtered_movies = dataframe[(dataframe['genres'] == movie_genre) & (dataframe['original_language'] == movie_language)]
    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Filtrar películas por género e idioma
filtered_movies = filter_movies_by_genre_and_language(random_movie_id, recomendador_mejorado)

# Configurar los datos
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
trainset_user_full = data.build_full_trainset()
model_user.fit(trainset_user_full)

# Generar predicciones
items_unseen_by_user = trainset_user_full.build_anti_testset(fill=0)
predictions = model_user.test(items_unseen_by_user)

# Obtener las mejores recomendaciones
top_n = 10
recommendations = []
for uid, iid, true_r, est, _ in predictions:
    if uid == userId:
        recommendations.append((iid, est))
recommendations.sort(key=lambda x: x[1], reverse=True)
top_movies = recommendations[:top_n]

# Mostrar la película elegida aleatoriamente para el usuario
random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
print("Película elegida aleatoriamente para el usuario", userId, ":")
print(random_movie_title, "(ID:", random_movie_id, ")")

# Mostrar las recomendaciones para el usuario
print("\nTop 10 películas recomendadas para el usuario", userId, ":")
for movie_id, estimated_rating in top_movies:
    movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
    print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Collecting surprise
  Downloading surprise-0.1-py2.py3-none-any.whl (1.8 kB)
Collecting scikit-surprise (from surprise)
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m11.2 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=3163014 sha256=90022e25fa6f9924ff281936879db0b7af91d3fb0ccd2d64d1b9e4f0810db7bb
  Stored in directory: /root/.cache/pip/wheels/a5/ca/a8/4e28def53797fdc4363ca4af740db15a9c2f1595ebc51fb445
Successfully built scikit-surprise
Installing collected packages: scikit-surprise, surprise
Successfully installed scikit-surprise-1.1.3 surprise-0.1
Película elegida aleatoriamente para el usuario 267999 :
Finding Nemo (ID: 1 )

To

In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 136 entries, 5 to 39458
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                136 non-null    int64  
 1   movieId               136 non-null    int64  
 2   rating                136 non-null    float64
 3   genres                136 non-null    object 
 4   vote_average          136 non-null    float64
 5   vote_count            136 non-null    float64
 6   popularity            136 non-null    float64
 7   original_language     136 non-null    object 
 8   original_title        136 non-null    object 
 9   budget                136 non-null    float64
 10  cast                  136 non-null    object 
 11  crew                  136 non-null    object 
 12  genre_avg_popularity  136 non-null    float64
dtypes: float64(6), int64(2), object(5)
memory usage: 14.9+ KB


## **Manejo de excepciones**

### **Recomendador mejorado** (recomendaciones filtradas por género e idioma)

In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma
def filter_movies_by_genre_and_language(movie_id, dataframe):
    movie_genre = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]
    filtered_movies = dataframe[(dataframe['genres'] == movie_genre) & (dataframe['original_language'] == movie_language)]
    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Filtrar películas por género e idioma
filtered_movies = filter_movies_by_genre_and_language(random_movie_id, recomendador_mejorado)

# Configurar los datos
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
trainset_user_full = data.build_full_trainset()
model_user.fit(trainset_user_full)

# Generar predicciones
items_unseen_by_user = trainset_user_full.build_anti_testset(fill=0)
predictions = model_user.test(items_unseen_by_user)

# Obtener las mejores recomendaciones
top_n = 10
recommendations = []
for uid, iid, true_r, est, _ in predictions:
    if uid == userId:
        recommendations.append((iid, est))
recommendations.sort(key=lambda x: x[1], reverse=True)

# Si hay menos de 10 recomendaciones, imprimir un mensaje
if len(recommendations) < top_n:
    print("No hay suficientes datos para generar 10 recomendaciones.")
else:
    top_movies = recommendations[:top_n]
    # Mostrar la película elegida aleatoriamente para el usuario
    random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
    print("Película elegida aleatoriamente para el usuario", userId, ":")
    print(random_movie_title, "(ID:", random_movie_id, ")")

    # Mostrar las recomendaciones para el usuario
    print("\nTop 10 películas recomendadas para el usuario", userId, ":")
    for movie_id, estimated_rating in top_movies:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


No hay suficientes datos para generar 10 recomendaciones.


In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 37 entries, 336 to 37752
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                37 non-null     int64  
 1   movieId               37 non-null     int64  
 2   rating                37 non-null     float64
 3   genres                37 non-null     object 
 4   vote_average          37 non-null     float64
 5   vote_count            37 non-null     float64
 6   popularity            37 non-null     float64
 7   original_language     37 non-null     object 
 8   original_title        37 non-null     object 
 9   budget                37 non-null     float64
 10  cast                  37 non-null     object 
 11  crew                  37 non-null     object 
 12  genre_avg_popularity  37 non-null     float64
dtypes: float64(6), int64(2), object(5)
memory usage: 4.0+ KB


Parece que el **filtro que hemos aplicado a las películas basado en el género e idioma** ha resultado en un conjunto muy pequeño de películas disponibles para el usuario seleccionado por lo que no ofrece recomendaciones.

### **Recomendador mejorado** (recomendaciones filtradas solo por género)

In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas solo por género
def filter_movies_by_genre(movie_id, dataframe):
    movie_genre = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0]
    filtered_movies = dataframe[dataframe['genres'] == movie_genre]
    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Filtrar películas solo por género
filtered_movies = filter_movies_by_genre(random_movie_id, recomendador_mejorado)

# Configurar los datos
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
trainset_user_full = data.build_full_trainset()
model_user.fit(trainset_user_full)

# Generar predicciones
items_unseen_by_user = trainset_user_full.build_anti_testset(fill=0)
predictions = model_user.test(items_unseen_by_user)

# Obtener las mejores recomendaciones
top_n = 10
recommendations = []
for uid, iid, true_r, est, _ in predictions:
    if uid == userId:
        recommendations.append((iid, est))
recommendations.sort(key=lambda x: x[1], reverse=True)

# Si hay menos de 10 recomendaciones, imprimir un mensaje
if len(recommendations) < top_n:
    print("No hay suficientes datos para generar 10 recomendaciones.")
else:
    top_movies = recommendations[:top_n]
    # Mostrar la película elegida aleatoriamente para el usuario
    random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
    print("Película elegida aleatoriamente para el usuario", userId, ":")
    print(random_movie_title, "(ID:", random_movie_id, ")")

    # Mostrar las recomendaciones para el usuario
    print("\nTop 10 películas recomendadas para el usuario", userId, ":")
    for movie_id, estimated_rating in top_movies:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


No hay suficientes datos para generar 10 recomendaciones.


In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5 entries, 81 to 14929
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                5 non-null      int64  
 1   movieId               5 non-null      int64  
 2   rating                5 non-null      float64
 3   genres                5 non-null      object 
 4   vote_average          5 non-null      float64
 5   vote_count            5 non-null      float64
 6   popularity            5 non-null      float64
 7   original_language     5 non-null      object 
 8   original_title        5 non-null      object 
 9   budget                5 non-null      float64
 10  cast                  5 non-null      object 
 11  crew                  5 non-null      object 
 12  genre_avg_popularity  5 non-null      float64
dtypes: float64(6), int64(2), object(5)
memory usage: 560.0+ bytes


### **Recomendador mejorado** (recomendaciones filtradas por los primeros 3 géneros)


In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género
def filter_movies_by_genre(movie_id, dataframe, num_genres=3):
    movie_genres = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0]
    movie_genres = movie_genres.split('|')  # Separar los géneros por '|'
    filtered_movies = dataframe[dataframe['genres'].str.contains('|'.join(movie_genres[:num_genres]))]
    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Filtrar películas por género
filtered_movies = filter_movies_by_genre(random_movie_id, recomendador_mejorado, num_genres=3)

# Configurar los datos
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
trainset_user_full = data.build_full_trainset()
model_user.fit(trainset_user_full)

# Generar predicciones
items_unseen_by_user = trainset_user_full.build_anti_testset(fill=0)
predictions = model_user.test(items_unseen_by_user)

# Obtener las mejores recomendaciones
top_n = 10
recommendations = []
for uid, iid, true_r, est, _ in predictions:
    if uid == userId:
        recommendations.append((iid, est))
recommendations.sort(key=lambda x: x[1], reverse=True)

# Si hay menos de 10 recomendaciones, imprimir un mensaje
if len(recommendations) < top_n:
    print("No hay suficientes datos para generar 10 recomendaciones.")
else:
    top_movies = recommendations[:top_n]
    # Mostrar la película elegida aleatoriamente para el usuario
    random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
    print("Película elegida aleatoriamente para el usuario", userId, ":")
    print(random_movie_title, "(ID:", random_movie_id, ")")

    # Mostrar las recomendaciones para el usuario
    print("\nTop 10 películas recomendadas para el usuario", userId, ":")
    for movie_id, estimated_rating in top_movies:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Película elegida aleatoriamente para el usuario 40348 :
Paradise Found (ID: 296 )

Top 10 películas recomendadas para el usuario 40348 :
অপরাজিত (ID: 2858 ) - Est. Rating: 4.598467854337684
Letter from an Unknown Woman (ID: 527 ) - Est. Rating: 4.575573565449558
Erbsen auf halb 6 (ID: 2028 ) - Est. Rating: 4.522199089153853
A Bridge Too Far (ID: 750 ) - Est. Rating: 4.474941488581944
All Quiet on the Western Front (ID: 858 ) - Est. Rating: 4.448460257148331
Predator (ID: 47 ) - Est. Rating: 4.445529696111147
Shortbus (ID: 7153 ) - Est. Rating: 4.441760048979305
The Wedding Date (ID: 924 ) - Est. Rating: 4.434970017056522
A Mighty Heart (ID: 364 ) - Est. Rating: 4.421677883885178
American Beauty (ID: 293 ) - Est. Rating: 4.414720665612346


In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 37567 entries, 0 to 39546
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                37567 non-null  int64  
 1   movieId               37567 non-null  int64  
 2   rating                37567 non-null  float64
 3   genres                37567 non-null  object 
 4   vote_average          37567 non-null  float64
 5   vote_count            37567 non-null  float64
 6   popularity            37567 non-null  float64
 7   original_language     37567 non-null  object 
 8   original_title        37567 non-null  object 
 9   budget                37567 non-null  float64
 10  cast                  37567 non-null  object 
 11  crew                  37567 non-null  object 
 12  genre_avg_popularity  37567 non-null  float64
dtypes: float64(6), int64(2), object(5)
memory usage: 4.0+ MB


### **Recomendador mejorado** (recomendaciones filtradas por los primeros 3 géneros y por idioma).

In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma
def filter_movies_by_genre_and_language(movie_id, dataframe):
    # Obtener los tres primeros géneros de la película
    movie_genres = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0].split('|')[:3]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]

    # Filtrar películas por género e idioma
    filtered_movies = dataframe[dataframe['original_language'] == movie_language]
    for genre in movie_genres:
        filtered_movies = filtered_movies[filtered_movies['genres'].str.contains(genre)]

    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Filtrar películas por género e idioma
filtered_movies = filter_movies_by_genre_and_language(random_movie_id, recomendador_mejorado)

# Si no hay suficientes datos, imprimir un mensaje y salir del script
if len(filtered_movies) < 10:
    print("No hay suficientes datos para generar 10 recomendaciones.")
    exit()

# Configurar los datos
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
trainset_user_full = data.build_full_trainset()
model_user.fit(trainset_user_full)

# Generar predicciones
items_unseen_by_user = trainset_user_full.build_anti_testset(fill=0)
predictions = model_user.test(items_unseen_by_user)

# Obtener las mejores recomendaciones
top_n = 10
recommendations = []
for uid, iid, true_r, est, _ in predictions:
    if uid == userId:
        recommendations.append((iid, est))
recommendations.sort(key=lambda x: x[1], reverse=True)

# Si hay menos de 10 recomendaciones, imprimir un mensaje
if len(recommendations) < top_n:
    print("No hay suficientes datos para generar 10 recomendaciones.")
else:
    top_movies = recommendations[:top_n]
    # Mostrar la película elegida aleatoriamente para el usuario
    random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
    print("Película elegida aleatoriamente para el usuario", userId, ":")
    print(random_movie_title, "(ID:", random_movie_id, ")")

    # Mostrar las recomendaciones para el usuario
    print("\nTop 10 películas recomendadas para el usuario", userId, ":")
    for movie_id, estimated_rating in top_movies:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Película elegida aleatoriamente para el usuario 88496 :
To Be or Not to Be (ID: 19 )

Top 10 películas recomendadas para el usuario 88496 :
Donnie Darko (ID: 318 ) - Est. Rating: 4.664932805521764
All Quiet on the Western Front (ID: 858 ) - Est. Rating: 4.528454571154251
A Bridge Too Far (ID: 750 ) - Est. Rating: 4.483385749553343
風の谷のナウシカ (ID: 260 ) - Est. Rating: 4.463208222244964
অপরাজিত (ID: 2858 ) - Est. Rating: 4.460560847975445
The Wedding Date (ID: 924 ) - Est. Rating: 4.456398218731959
Erbsen auf halb 6 (ID: 2028 ) - Est. Rating: 4.43466394920888
A Mighty Heart (ID: 364 ) - Est. Rating: 4.417302321621682
Paradise Found (ID: 296 ) - Est. Rating: 4.401625480123402
Shortbus (ID: 7153 ) - Est. Rating: 4.396995597774113


In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26961 entries, 2 to 39545
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                26961 non-null  int64  
 1   movieId               26961 non-null  int64  
 2   rating                26961 non-null  float64
 3   genres                26961 non-null  object 
 4   vote_average          26961 non-null  float64
 5   vote_count            26961 non-null  float64
 6   popularity            26961 non-null  float64
 7   original_language     26961 non-null  object 
 8   original_title        26961 non-null  object 
 9   budget                26961 non-null  float64
 10  cast                  26961 non-null  object 
 11  crew                  26961 non-null  object 
 12  genre_avg_popularity  26961 non-null  float64
dtypes: float64(6), int64(2), object(5)
memory usage: 2.9+ MB


En el siguiente paso mejoraremos el filtrado por idioma.

### **Recomendador mejorado** con la característica **genre_avg_popularity** obtenida por **Feature Engineering**
(filtrado por genres, original_language, genre_avg_popularity)

In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma, dando preferencia al género con mayor genre_avg_popularity
def filter_movies_by_genre_language_and_popularity(movie_id, dataframe):
    # Obtener los géneros de la película seleccionada
    movie_genres = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0].split('|')

    # Ordenar los géneros según su genre_avg_popularity
    movie_genres.sort(key=lambda genre: dataframe[dataframe['genres'].str.contains(genre)]['genre_avg_popularity'].mean(), reverse=True)

    # Filtrar películas por género e idioma, dando prioridad al género con mayor genre_avg_popularity
    filtered_movies = dataframe[dataframe['genres'].str.contains('|'.join(movie_genres))]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]
    filtered_movies = filtered_movies[filtered_movies['original_language'] == movie_language]

    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Filtrar películas por género, idioma, dando preferencia al género con mayor genre_avg_popularity
filtered_movies = filter_movies_by_genre_language_and_popularity(random_movie_id, recomendador_mejorado)

# Si no hay suficientes datos, imprimir un mensaje y salir del script
if len(filtered_movies) < 10:
    print("No hay suficientes datos para generar 10 recomendaciones.")
    exit()

# Configurar los datos para el modelo
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos en conjuntos de entrenamiento y prueba
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros para el modelo
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
model_user.fit(trainset_user)

# Generar predicciones solo para el conjunto de prueba
predictions = model_user.test(testset_user)

# Obtener las verdaderas calificaciones del conjunto de prueba
true_ratings = [rating for (_, _, rating) in testset_user]

# Filtrar las predicciones para que coincidan con las películas en el conjunto de prueba
predicted_ratings = [pred.est for pred in predictions]

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(true_ratings, predicted_ratings)
print("Mean Squared Error (MSE):", mse)

# Obtener las mejores recomendaciones, evitando duplicados y excluyendo películas con Est. Rating por debajo de 4
recommendations = []
for pred in sorted(predictions, key=lambda x: x.est, reverse=True):
    if pred.est >= 4 and pred.iid not in [r[0] for r in recommendations]:
        movie_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == pred.iid, 'original_language'].iloc[0]
        if movie_language == filtered_movies['original_language'].iloc[0]:  # Verificar que la película esté en el mismo idioma que la película aleatoria
            recommendations.append((pred.iid, pred.est))

# Mostrar la película elegida aleatoriamente para el usuario
random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
print("Película elegida aleatoriamente para el usuario", userId, ":")
print(random_movie_title, "(ID:", random_movie_id, ")")

# Mostrar las recomendaciones para el usuario
print("\nTop 10 películas recomendadas para el usuario", userId, ":")

# Mostrar recomendaciones si están disponibles, de lo contrario, mostrar un mensaje adecuado
if len(recommendations) == 0:
    print("Por el momento no hay recomendaciones disponibles para la película seleccionada.")
elif len(recommendations) < 10:
    for movie_id, estimated_rating in recommendations:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)
    print("Por el momento no se dispone de más recomendaciones para la película seleccionada.")
else:
    for movie_id, estimated_rating in recommendations[:10]:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Mean Squared Error (MSE): 1.0114534246104812
Película elegida aleatoriamente para el usuario 36704 :
In Society (ID: 3254 )

Top 10 películas recomendadas para el usuario 36704 :
Donnie Darko (ID: 318 ) - Est. Rating: 4.409054336713283
American Beauty (ID: 293 ) - Est. Rating: 4.288595092763552
All Quiet on the Western Front (ID: 858 ) - Est. Rating: 4.286190881418284
Apocalypse Now (ID: 50 ) - Est. Rating: 4.252561613642438
Faster, Pussycat! Kill! Kill! (ID: 593 ) - Est. Rating: 4.2341502051027415
Letter from an Unknown Woman (ID: 527 ) - Est. Rating: 4.214168846711429
A Mighty Heart (ID: 364 ) - Est. Rating: 4.201515736739929
The Bunker (ID: 1197 ) - Est. Rating: 4.197932244704453
Lucky Number Slevin (ID: 215 ) - Est. Rating: 4.1813143417075915
Paradise Found (ID: 296 ) - Est. Rating: 4.147652303036306


In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26961 entries, 2 to 39545
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                26961 non-null  int64  
 1   movieId               26961 non-null  int64  
 2   rating                26961 non-null  float64
 3   genres                26961 non-null  object 
 4   vote_average          26961 non-null  float64
 5   vote_count            26961 non-null  float64
 6   popularity            26961 non-null  float64
 7   original_language     26961 non-null  object 
 8   original_title        26961 non-null  object 
 9   budget                26961 non-null  float64
 10  cast                  26961 non-null  object 
 11  crew                  26961 non-null  object 
 12  genre_avg_popularity  26961 non-null  float64
dtypes: float64(6), int64(2), object(5)
memory usage: 2.9+ MB


En este caso, seleccionamos una película aleatoria que el usuario haya visto y luego filtramos las películas del conjunto de datos basadas en género, idioma y popularidad promedio del género, dando prioridad al género con mayor popularidad promedio (**`genre_avg_popularity`**).

Esto ayuda a personalizar las recomendaciones y a mejorar la probabilidad de que al usuario le gusten las películas sugeridas.

### **Recomendador mejorado** (budget y vote_average)
(filtrado por genres, original_language, genre_avg_popularity, budget y vote_average)

In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma, dando preferencia al género con mayor genre_avg_popularity
def filter_movies_by_genre_language_and_popularity(movie_id, dataframe):
    # Obtener los géneros de la película seleccionada
    movie_genres = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0].split('|')

    # Ordenar los géneros según su genre_avg_popularity
    movie_genres.sort(key=lambda genre: dataframe[dataframe['genres'].str.contains(genre)]['genre_avg_popularity'].mean(), reverse=True)

    # Filtrar películas por género e idioma, dando prioridad al género con mayor genre_avg_popularity
    filtered_movies = dataframe[dataframe['genres'].str.contains('|'.join(movie_genres))]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]
    filtered_movies = filtered_movies[filtered_movies['original_language'] == movie_language]

    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Obtener el idioma original de la película seleccionada aleatoriamente
original_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == random_movie_id, 'original_language'].iloc[0]

# Filtrar películas por género, idioma, dando preferencia al género con mayor genre_avg_popularity
filtered_movies = filter_movies_by_genre_language_and_popularity(random_movie_id, recomendador_mejorado)

# Si no hay suficientes datos, imprimir un mensaje y mostrar las recomendaciones disponibles
if len(filtered_movies) < 10:
    print("Por el momento no hay suficientes películas disponibles en el mismo idioma para generar 10 recomendaciones.")
    print("Recomendaciones disponibles:")
    for movie_id in filtered_movies['movieId']:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title)
    exit()

# Configurar los datos para el modelo
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos en conjuntos de entrenamiento y prueba
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros para el modelo
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
model_user.fit(trainset_user)

# Generar predicciones para todo el conjunto de datos
predictions = model_user.test(data.build_full_trainset().build_testset())

# Obtener las verdaderas calificaciones
true_ratings = [rating for (_, _, rating) in data.build_full_trainset().build_testset()]

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(true_ratings, [pred.est for pred in predictions])
print("Mean Squared Error (MSE):", mse)

# Obtener las mejores recomendaciones, evitando duplicados y la película elegida aleatoriamente
recommendations = []
for pred in sorted(predictions, key=lambda x: x.est, reverse=True):
    if pred.iid != random_movie_id and pred.iid not in [r[0] for r in recommendations] and pred.est >= 4:
        movie_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == pred.iid, 'original_language'].iloc[0]
        if movie_language == original_language:
            recommendations.append((pred.iid, pred.est))

# Ordenar las recomendaciones por budget y vote_average
recommendations.sort(key=lambda x: (filtered_movies.loc[filtered_movies['movieId'] == x[0], 'budget'].iloc[0],
                                    filtered_movies.loc[filtered_movies['movieId'] == x[0], 'vote_average'].iloc[0]),
                     reverse=True)

# Mostrar la película elegida aleatoriamente para el usuario
random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
print("Película elegida aleatoriamente para el usuario", userId, ":")
print(random_movie_title, "(ID:", random_movie_id, ")")

# Mostrar las recomendaciones para el usuario
print("\nTop 10 películas recomendadas para el usuario", userId, ":")

# Mostrar recomendaciones si están disponibles, de lo contrario, mostrar un mensaje adecuado
if len(recommendations) == 0:
    print("Por el momento no hay recomendaciones disponibles para la película seleccionada.")
elif len(recommendations) < 10:
    for movie_id, estimated_rating in recommendations:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)
    print("Por el momento no se dispone de más recomendaciones para la película seleccionada.")
else:
    for movie_id, estimated_rating in recommendations[:10]:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Mean Squared Error (MSE): 0.6447992327520169
Película elegida aleatoriamente para el usuario 34513 :
Le fabuleux destin d'Amélie Poulain (ID: 150 )

Top 10 películas recomendadas para el usuario 34513 :
Banlieue 13 - Ultimatum (ID: 3020 ) - Est. Rating: 4.027474988555575
Paris, je t'aime (ID: 1189 ) - Est. Rating: 4.037204588249442
La science des rêves (ID: 1193 ) - Est. Rating: 4.176952889021026
Vivre sa vie: film en douze tableaux (ID: 524 ) - Est. Rating: 4.150330018871714
La Grande Illusion (ID: 94 ) - Est. Rating: 4.157851123776297
Seul contre tous (ID: 162 ) - Est. Rating: 4.120010454925813
La Salamandre (ID: 5992 ) - Est. Rating: 4.151084268225381
Le château de ma mère (ID: 1200 ) - Est. Rating: 4.113884696045402
Belle de jour (ID: 1617 ) - Est. Rating: 4.0903601561924186
Domicile Conjugal (ID: 2114 ) - Est. Rating: 4.108831805831694


In [None]:
filtered_movies.info()


<class 'pandas.core.frame.DataFrame'>
Int64Index: 2069 entries, 64 to 39546
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                2069 non-null   int64  
 1   movieId               2069 non-null   int64  
 2   rating                2069 non-null   float64
 3   genres                2069 non-null   object 
 4   vote_average          2069 non-null   float64
 5   vote_count            2069 non-null   float64
 6   popularity            2069 non-null   float64
 7   original_language     2069 non-null   object 
 8   original_title        2069 non-null   object 
 9   budget                2069 non-null   float64
 10  cast                  2069 non-null   object 
 11  crew                  2069 non-null   object 
 12  genre_avg_popularity  2069 non-null   float64
dtypes: float64(6), int64(2), object(5)
memory usage: 226.3+ KB


### **Recomendador mejorado** (filtrado adicional con cast y crew)

In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma, dando preferencia al género con mayor genre_avg_popularity
def filter_movies_by_genre_language_and_popularity(movie_id, dataframe):
    # Obtener los géneros de la película seleccionada
    movie_genres = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0].split('|')

    # Ordenar los géneros según su genre_avg_popularity
    movie_genres.sort(key=lambda genre: dataframe[dataframe['genres'].str.contains(genre)]['genre_avg_popularity'].mean(), reverse=True)

    # Filtrar películas por género e idioma, dando prioridad al género con mayor genre_avg_popularity
    filtered_movies = dataframe[dataframe['genres'].str.contains('|'.join(movie_genres))]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]
    filtered_movies = filtered_movies[filtered_movies['original_language'] == movie_language]

    return filtered_movies

# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Obtener el idioma original de la película seleccionada aleatoriamente
original_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == random_movie_id, 'original_language'].iloc[0]

# Filtrar películas por género, idioma, dando preferencia al género con mayor genre_avg_popularity
filtered_movies = filter_movies_by_genre_language_and_popularity(random_movie_id, recomendador_mejorado)

# Si no hay suficientes datos, imprimir un mensaje y mostrar las recomendaciones disponibles
if len(filtered_movies) < 10:
    print("Por el momento no hay suficientes películas disponibles en el mismo idioma para generar 10 recomendaciones.")
    print("Recomendaciones disponibles:")
    for movie_id in filtered_movies['movieId']:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title)
    exit()

# Configurar los datos para el modelo
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos en conjuntos de entrenamiento y prueba
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros para el modelo
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
model_user.fit(trainset_user)

# Generar predicciones para todo el conjunto de datos
predictions = model_user.test(data.build_full_trainset().build_testset())

# Obtener las verdaderas calificaciones
true_ratings = [rating for (_, _, rating) in data.build_full_trainset().build_testset()]

# Calcular el error cuadrático medio (MSE)
mse = mean_squared_error(true_ratings, [pred.est for pred in predictions])
print("Mean Squared Error (MSE):", mse)

# Obtener las mejores recomendaciones, evitando duplicados y la película elegida aleatoriamente
recommendations = []
for pred in sorted(predictions, key=lambda x: x.est, reverse=True):
    if pred.iid != random_movie_id and pred.iid not in [r[0] for r in recommendations] and pred.est >= 4:
        movie_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == pred.iid, 'original_language'].iloc[0]
        if movie_language == original_language:
            recommendations.append((pred.iid, pred.est))

# Obtener el cast y el crew de la película elegida aleatoriamente
random_movie_cast_crew = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == random_movie_id, ['cast', 'crew']].iloc[0]

# Filtrar las recomendaciones para incluir aquellas que tienen el mismo cast o crew
final_recommendations = []
for movie_id, estimated_rating in recommendations:
    movie_cast_crew = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == movie_id, ['cast', 'crew']].iloc[0]
    if any(actor in random_movie_cast_crew['cast'] for actor in movie_cast_crew['cast']) or any(crew_member in random_movie_cast_crew['crew'] for crew_member in movie_cast_crew['crew']):
        final_recommendations.append((movie_id, estimated_rating))

# Ordenar las recomendaciones por budget y vote_average
final_recommendations.sort(key=lambda x: (filtered_movies.loc[filtered_movies['movieId'] == x[0], 'budget'].iloc[0],
                                           filtered_movies.loc[filtered_movies['movieId'] == x[0], 'vote_average'].iloc[0]),
                            reverse=True)

# Mostrar la película elegida aleatoriamente para el usuario
random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_mejorado)
print("Película elegida aleatoriamente para el usuario", userId, ":")
print(random_movie_title, "(ID:", random_movie_id, ")")

# Mostrar las recomendaciones para el usuario
print("\nTop 10 películas recomendadas para el usuario", userId, ":")
if len(final_recommendations) == 0:
    print("Por el momento no hay recomendaciones disponibles.")
elif len(final_recommendations) < 10:
    for movie_id, estimated_rating in final_recommendations:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)
    print("Por el momento no se dispone de más recomendaciones.")
else:
    for movie_id, estimated_rating in final_recommendations[:10]:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Mean Squared Error (MSE): 0.5958616430104314
Película elegida aleatoriamente para el usuario 64678 :
Finding Nemo (ID: 1 )

Top 10 películas recomendadas para el usuario 64678 :
Pirates of the Caribbean: At World's End (ID: 908 ) - Est. Rating: 4.449658269687035
The Chronicles of Narnia: Prince Caspian (ID: 910 ) - Est. Rating: 4.04412185119774
Ocean's Twelve (ID: 262 ) - Est. Rating: 4.097314304324622
Ali (ID: 1225 ) - Est. Rating: 4.033893509910836
The Lord of the Rings: The Return of the King (ID: 333 ) - Est. Rating: 4.067821186555257
Spy Game (ID: 1580 ) - Est. Rating: 4.2594196571534635
The Stepford Wives (ID: 199 ) - Est. Rating: 4.184505954254023
Awake (ID: 916 ) - Est. Rating: 4.22184101815447
Ice Age: The Meltdown (ID: 319 ) - Est. Rating: 4.009197995981066
Meet the Fockers (ID: 223 ) - Est. Rating: 4.331763120472268


In [None]:
filtered_movies.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 26961 entries, 2 to 39545
Data columns (total 13 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   userId                26961 non-null  int64  
 1   movieId               26961 non-null  int64  
 2   rating                26961 non-null  float64
 3   genres                26961 non-null  object 
 4   vote_average          26961 non-null  float64
 5   vote_count            26961 non-null  float64
 6   popularity            26961 non-null  float64
 7   original_language     26961 non-null  object 
 8   original_title        26961 non-null  object 
 9   budget                26961 non-null  float64
 10  cast                  26961 non-null  object 
 11  crew                  26961 non-null  object 
 12  genre_avg_popularity  26961 non-null  float64
dtypes: float64(6), int64(2), object(5)
memory usage: 2.9+ MB


En esta versión, las recomendaciones se filtran antes de ordenarlas por budget y vote_average, **lo que garantiza que se tengan en cuenta las preferencias basadas en el cast o crew de la película seleccionada aleatoriamente.**

**Esto ayuda mucho más a personalizar las recomendaciones y a mejorar la probabilidad de que al usuario le gusten muchísimo más las películas sugeridas.**

### **Aplicación Web Interactiva** (Recomendador híbrido)

Crearemos la aplicación web interactiva donde los usuarios podrán recibir **recomendaciones de 10 películas con solo hacer click en el botón "Mostrar recomendaciones"** de la aplicación.

El código utilizará Dash para crear la aplicación web interactiva que además actualizará dinámicamente el contenido de la página web en función de la interacción del usuario.

In [None]:
! pip install dash


Collecting dash
  Downloading dash-2.15.0-py3-none-any.whl (10.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.2/10.2 MB[0m [31m16.2 MB/s[0m eta [36m0:00:00[0m
Collecting dash-html-components==2.0.0 (from dash)
  Downloading dash_html_components-2.0.0-py3-none-any.whl (4.1 kB)
Collecting dash-core-components==2.0.0 (from dash)
  Downloading dash_core_components-2.0.0-py3-none-any.whl (3.8 kB)
Collecting dash-table==5.0.0 (from dash)
  Downloading dash_table-5.0.0-py3-none-any.whl (3.9 kB)
Collecting retrying (from dash)
  Downloading retrying-1.3.4-py3-none-any.whl (11 kB)
Installing collected packages: dash-table, dash-html-components, dash-core-components, retrying, dash
Successfully installed dash-2.15.0 dash-core-components-2.0.0 dash-html-components-2.0.0 dash-table-5.0.0 retrying-1.3.4


In [None]:
import pandas as pd
import random
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import dash
from dash import dcc, html, Input, Output

# Cargar los datos de las películas (recomendador_mejorado)
#recomendador_mejorado = pd.read_csv('recomendador_mejorado.csv')

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, dataframe):
    movie_title = dataframe.loc[dataframe['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Filtrar películas por género e idioma, dando preferencia al género con mayor genre_avg_popularity
def filter_movies_by_genre_language_and_popularity(movie_id, dataframe):
    # Obtener los géneros de la película seleccionada
    movie_genres = dataframe.loc[dataframe['movieId'] == movie_id, 'genres'].iloc[0].split('|')

    # Ordenar los géneros según su genre_avg_popularity
    movie_genres.sort(key=lambda genre: dataframe[dataframe['genres'].str.contains(genre)]['genre_avg_popularity'].mean(), reverse=True)

    # Filtrar películas por género e idioma, dando prioridad al género con mayor genre_avg_popularity
    filtered_movies = dataframe[dataframe['genres'].str.contains('|'.join(movie_genres))]
    movie_language = dataframe.loc[dataframe['movieId'] == movie_id, 'original_language'].iloc[0]
    filtered_movies = filtered_movies[filtered_movies['original_language'] == movie_language]

    return filtered_movies


# Obtener lista de userId únicos
unique_user_ids = recomendador_mejorado['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_mejorado.loc[recomendador_mejorado['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Obtener el idioma original de la película seleccionada aleatoriamente
original_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == random_movie_id, 'original_language'].iloc[0]

# Filtrar películas por género, idioma, dando preferencia al género con mayor genre_avg_popularity
filtered_movies = filter_movies_by_genre_language_and_popularity(random_movie_id, recomendador_mejorado)

# Si no hay suficientes datos, imprimir un mensaje y mostrar las recomendaciones disponibles
if len(filtered_movies) < 10:
    print("Por el momento no hay suficientes películas disponibles en el mismo idioma para generar 10 recomendaciones.")
    print("Recomendaciones disponibles:")
    for movie_id in filtered_movies['movieId']:
        movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
        print(movie_title)
    exit()

# Configurar los datos para el modelo
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(filtered_movies[['userId', 'movieId', 'rating']], reader)

# Dividir los datos en conjuntos de entrenamiento y prueba
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros para el modelo
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
model_user.fit(trainset_user)

# Generar predicciones para todo el conjunto de datos
predictions = model_user.test(data.build_full_trainset().build_testset())

# Obtener las verdaderas calificaciones
true_ratings = [rating for (_, _, rating) in data.build_full_trainset().build_testset()]

# Calcular el error cuadrático medio (MSE)
#mse = mean_squared_error(true_ratings, [pred.est for pred in predictions])
#print("Mean Squared Error (MSE):", mse)

# Obtener las mejores recomendaciones, evitando duplicados y la película elegida aleatoriamente
recommendations = []
for pred in sorted(predictions, key=lambda x: x.est, reverse=True):
    if pred.iid != random_movie_id and pred.iid not in [r[0] for r in recommendations] and pred.est >= 4:
        movie_language = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == pred.iid, 'original_language'].iloc[0]
        if movie_language == original_language:
            recommendations.append((pred.iid, pred.est))

# Obtener el cast y el crew de la película elegida aleatoriamente
random_movie_cast_crew = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == random_movie_id, ['cast', 'crew']].iloc[0]

# Filtrar las recomendaciones para incluir aquellas que tienen el mismo cast o crew
final_recommendations = []
for movie_id, estimated_rating in recommendations:
    movie_cast_crew = recomendador_mejorado.loc[recomendador_mejorado['movieId'] == movie_id, ['cast', 'crew']].iloc[0]
    if any(actor in random_movie_cast_crew['cast'] for actor in movie_cast_crew['cast']) or any(crew_member in random_movie_cast_crew['crew'] for crew_member in movie_cast_crew['crew']):
        final_recommendations.append((movie_id, estimated_rating))

# Ordenar las recomendaciones por budget y vote_average
final_recommendations.sort(key=lambda x: (filtered_movies.loc[filtered_movies['movieId'] == x[0], 'budget'].iloc[0],
                                           filtered_movies.loc[filtered_movies['movieId'] == x[0], 'vote_average'].iloc[0]),
                            reverse=True)

# Iniciar la aplicación Dash
app = dash.Dash(__name__)

# Definir el diseño de la aplicación
app.layout = html.Div([
    html.H1("Recomendaciones de Películas"),
    html.Button("Mostrar recomendaciones", id="show-recommendations-btn"),
    html.Div(id="recommendations-output")
])

# Definir la función de callback para mostrar las recomendaciones al hacer clic en el botón
@app.callback(
    Output("recommendations-output", "children"),
    [Input("show-recommendations-btn", "n_clicks")]
)
def show_recommendations(n_clicks):
    if n_clicks:
        output_text = []

        # Mostrar la película elegida aleatoriamente para el usuario
        output_text.append(html.H3("Película elegida aleatoriamente para el usuario {}: {} (ID: {})".format(userId, random_movie_title, random_movie_id)))

        # Mostrar las recomendaciones para el usuario
        if len(final_recommendations) == 0:
            output_text.append(html.P("Por el momento no hay recomendaciones disponibles."))
        elif len(final_recommendations) < 10:
            for movie_id, estimated_rating in final_recommendations:
                movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
                output_text.append(html.P("{} (ID: {}) - Est. Rating: {}".format(movie_title, movie_id, estimated_rating)))
            output_text.append(html.P("Por el momento no se dispone de más recomendaciones."))
        else:
            for movie_id, estimated_rating in final_recommendations[:10]:
                movie_title = get_movie_title_from_id(movie_id, recomendador_mejorado)
                output_text.append(html.P("{} (ID: {}) - Est. Rating: {}".format(movie_title, movie_id, estimated_rating)))

        return output_text

    return ""

# Ejecutar la aplicación en este script
if __name__ == '__main__':
    app.run_server(debug=True)


<IPython.core.display.Javascript object>

# **Ejecución de la App desde la terminal**

Para poder ver la aplicación en una pestaña del navegador en local, ejecutar el archivo app.py desde la terminal del ordenador.

Para ello hay que seguir los siguientes pasos:
- ambos archivos, **app.py** y **recomendador_mejorado.csv**, deberán encontrarse en la misma carpeta local.
- desde la terminal ``cd /Users/estefaniajimenezsaavedra/TFM_recomendador_peliculas/``

    (**sustituir /Users/estefaniajimenezsaavedra/TFM_recomendador_peliculas/ por la ruta local**).
- una vez en el directorio donde se encuentra el archivo app.py, ejecutar el comando **python3 app.py**.


Cuando la terminal termine de leer el script del archivo app.py, ésta ofrecerá el link de la url (Dash is running on http://127.0.0.1:8050/) sobre el que hacer click para abrir en una pestaña del navegador la aplicación en local.


**Para cerrar la aplicación desde la terminal:**
Press CTRL+C

## **CONCLUSIÓN**

El nuevo modelo de recomendación de películas mejorado sigue siendo de filtrado colaborativo basado en el usuario porque todavía se utiliza la información de las interacciones del usuario para hacer recomendaciones. Sin embargo, ahora hemos mejorado este enfoque al incorporar información adicional sobre las películas, como sus géneros, idioma original, la popularidad promedio de sus géneros, el budget y la calificación promedia.

Al incluir estas características adicionales, el modelo ha podido proporcionar recomendaciones más precisas y personalizadas al tener en cuenta más información sobre las preferencias del usuario y las características de las películas lo que puede conducir a una mejor experiencia de recomendación para los usuarios al presentarles películas que son más relevantes para sus gustos y preferencias.

## **Parquet (recomendador_mejorado)**

In [None]:
#recomendador_mejorado.to_parquet('recomendador_mejorado.parquet')

In [None]:
#import os

# Obtener el directorio actual
#current_directory = os.getcwd()
#print("Directorio actual:", current_directory)


Directorio actual: /content


In [None]:
#recomendador_mejorado = pd.read_parquet('recomendador_mejorado.parquet')

In [None]:
#from google.colab import files

# Especifica la ruta del archivo que deseas descargar
#ruta_archivo = "recomendador_mejorado.parquet"

# Descarga el archivo
#files.download(ruta_archivo)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

## **Pickle (SVD enfoque usuario)**

In [None]:
#import pickle

# Guardar el modelo entrenado SVD
#with open('modelo_svd.pickle', 'wb') as f:
    #pickle.dump(model_user, f)


In [None]:
#import os

# Obtener el directorio actual
#current_directory = os.getcwd()

# Imprimir la ruta del directorio actual
#print("Directorio actual:", current_directory)


Directorio actual: /content


In [None]:
#from google.colab import files

# Define el nombre del archivo pickle
#nombre_archivo = "modelo_svd.pickle"

# Descarga el archivo en tu sistema local
#files.download(nombre_archivo)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>