## **README**

**ANÁLISIS DE UN DATASET (ORIENTACIÓN DATA SCIENTIST)**

Este análisis forma parte de un proceso de evaluación del Máster Big Data & Data Science de la Universidad Complutense de Madrid y año académico 2023/2024.

**Propuesta de proyecto**:

Desarrollo de un sistema de recomendación que sugiera películas a los usuarios en función de su historial de visualización y preferencias.

**Recopilación y preprocesamiento de datos**

**Fuente de datos:** conjunto de datos de clasificaciones de usuarios y metadatos de películas. The Movies Dataset **(Kaggle)**

URL: https://www.kaggle.com/datasets/rounakbanik/the-movies-dataset

**Descripción del conjunto de datos:**

Este conjunto de datos en Kaggle contiene metadatos de más de 45.000 películas, 26 millones de valoraciones de más de 270.000 usuarios. Incluye clasificaciones, resúmenes, géneros y créditos.

## **Licencia de los datos:**

El conjunto de datos utilizado en este proyecto está **licenciado bajo CC0: Dominio público.**


## **Agradecimientos:**

**Este proyecto utiliza datos recopilados de TMDB y GroupLens.**

### **Datos de TMDB:**

Los detalles de la película, los créditos y las palabras clave se han recopilado de la API abierta de TMDB. **Este producto utiliza la API de TMDb pero no está respaldado ni certificado por TMDb. Su API también brinda acceso a datos sobre muchas películas, actores y actrices, miembros del equipo y programas de televisión adicionales.**

### **Datos de GroupLens:**

Los conjuntos de datos de MovieLens se obtuvieron del sitio web oficial de GroupLens. Estos conjuntos de datos incluyen calificaciones y metadatos de películas recopilados de usuarios.

### **Citación para GroupLens:**

Para reconocer el uso del conjunto de datos en publicaciones, citar el siguiente artículo:

**F. Maxwell Harper y Joseph A. Konstan. 2015. Los conjuntos de datos de MovieLens: historia y contexto. Transacciones ACM sobre sistemas inteligentes interactivos (TiiS) 5, 4: 19:1–19:19. https://doi.org/10.1145/2827872.**

### **Datos de IMDb:**

Para trabajos académicos y no comerciales, IMDb ofrece una subsección de datos de IMDb para descargar únicamente para uso no comercial y no profesional. Para obtener más detalles, consultar:

https://www.imdb.com/interfaces/

Este conjunto de datos es estrictamente para uso académico y cualquier uso del contenido de IMDb en un entorno, servicio o producto comercial requiere una licencia de contenido comercial con IMDb.


### **Citación para IMDb:**

**Datos cortesía de IMDb.**

In [None]:
from google.colab import drive
import pandas as pd

# Montar Google Drive
drive.mount('/content/drive')

# Rutas de los archivos en Google Drive
#ruta_credits = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/credits.csv'
#ruta_keywords = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/keywords.csv'
#ruta_links_small = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/links_small.csv'
#ruta_links = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/links.csv'
#ruta_movies_metadata = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/movies_metadata.csv'
#ruta_ratings_small = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/ratings_small.csv'
#ruta_ratings = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/ratings.csv'
ruta_recomendador_contenido = '/content/drive/My Drive/TFM_Recomendador_de_peliculas/recomendador_contenido.csv'

# Leer los archivos CSV
#credits = pd.read_csv(ruta_credits)
#keywords = pd.read_csv(ruta_keywords)
#links_small = pd.read_csv(ruta_links_small)
#links = pd.read_csv(ruta_links)
#movies_metadata = pd.read_csv(ruta_movies_metadata)
#ratings_small = pd.read_csv(ruta_ratings_small)
#ratings = pd.read_csv(ruta_ratings)
recomendador_contenido = pd.read_csv(ruta_recomendador_contenido)

Mounted at /content/drive


# **Productivización**

Para **productivizar el modelo de recomendación resultante del filtrado colaborativo basado en el usuario y ofrecer 10 películas recomendadas**, seguiremos estos pasos:

- **Generar las predicciones para un usuario específico:**
Generaremos predicciones de rating para un usuario específico en función de las películas que aún no ha visto.

- **Ordenar las predicciones y seleccionar las mejores películas:**
Ordenaremos las predicciones de mayor a menor rating y seleccionaremos las 10 películas con las calificaciones más altas como recomendaciones para el usuario.

In [None]:
recomendador_contenido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39547 entries, 0 to 39546
Data columns (total 17 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Unnamed: 0            39547 non-null  int64  
 1   userId                39547 non-null  int64  
 2   movieId               39547 non-null  int64  
 3   rating                39547 non-null  float64
 4   timestamp             39547 non-null  object 
 5   year_quarter          39547 non-null  object 
 6   id                    39547 non-null  int64  
 7   genres                39547 non-null  object 
 8   vote_average          39547 non-null  float64
 9   vote_count            39547 non-null  float64
 10  popularity            39547 non-null  float64
 11  original_language     39547 non-null  object 
 12  original_title        39547 non-null  object 
 13  budget                39547 non-null  float64
 14  cast                  39547 non-null  object 
 15  crew               

In [None]:
# Eliminar columnas innecesarias del DataFrame recomendador_contenido
recomendador_producido = recomendador_contenido.drop(['Unnamed: 0', 'timestamp', 'year_quarter', 'id', 'genres', 'original_language', 'budget', 'cast', 'crew', 'genre_avg_popularity'], axis=1)

In [None]:
recomendador_producido.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39547 entries, 0 to 39546
Data columns (total 7 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   userId          39547 non-null  int64  
 1   movieId         39547 non-null  int64  
 2   rating          39547 non-null  float64
 3   vote_average    39547 non-null  float64
 4   vote_count      39547 non-null  float64
 5   popularity      39547 non-null  float64
 6   original_title  39547 non-null  object 
dtypes: float64(4), int64(2), object(1)
memory usage: 2.1+ MB


In [None]:
recomendador_producido.head()

Unnamed: 0,userId,movieId,rating,vote_average,vote_count,popularity,original_title
0,2,5,3.0,0.71,0.003126,0.007051,Ariel
1,3,480,3.0,0.71,0.002487,0.004187,Varjoja paratiisissa
2,5,7,3.0,0.65,0.038295,0.016487,Four Rooms
3,6,11,3.0,0.64,0.005613,0.010117,Judgment Night
4,11,32,3.5,0.81,0.481563,0.076987,Star Wars


In [None]:
# Guardar DataFrame en un archivo CSV
#recomendador_producido.to_csv('recomendador_producido.csv', index=False)

In [None]:
# Descargar el archivo CSV desde Google Colab
#from google.colab import files
#files.download('recomendador_producido.csv')

In [None]:
import pandas as pd
import random
! pip install surprise
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split

# Definir la función para obtener el título de la película dado su ID
def get_movie_title_from_id(movie_id, recomendador_producido):
    movie_title = recomendador_producido.loc[recomendador_producido['movieId'] == movie_id, 'original_title'].iloc[0]
    return movie_title

# Obtener lista de userId únicos
unique_user_ids = recomendador_producido['userId'].unique()

# Seleccionar aleatoriamente un userId existente
userId = random.choice(unique_user_ids)

# Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
movies_for_user = recomendador_producido.loc[recomendador_producido['userId'] == userId, 'movieId'].unique()

# Seleccionar aleatoriamente un movieId asociado con userId seleccionado
random_movie_id = random.choice(movies_for_user)

# Configurar los datos
reader = Reader(rating_scale=(0, 5))
data = Dataset.load_from_df(recomendador_producido[['userId', 'movieId', 'rating']], reader)

# Dividir los datos
trainset_user, testset_user = train_test_split(data, test_size=0.2, random_state=42)

# Definir los mejores parámetros
best_params_user = {'n_factors': 100, 'n_epochs': 20, 'lr_all': 0.005}

# Entrenar el modelo
model_user = SVD(**best_params_user)
trainset_user_full = data.build_full_trainset()
model_user.fit(trainset_user_full)

# Generar predicciones
items_unseen_by_user = trainset_user_full.build_anti_testset(fill=0)
predictions = model_user.test(items_unseen_by_user)

# Obtener las mejores recomendaciones
top_n = 10
recommendations = []
for uid, iid, true_r, est, _ in predictions:
    if uid == userId:
        recommendations.append((iid, est))
recommendations.sort(key=lambda x: x[1], reverse=True)
top_movies = recommendations[:top_n]

# Mostrar la película elegida aleatoriamente para el usuario
random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_producido)
print("Película elegida aleatoriamente para el usuario", userId, ":")
print(random_movie_title, "(ID:", random_movie_id, ")")

# Mostrar las recomendaciones para el usuario
print("\nTop 10 películas recomendadas para el usuario", userId, ":")
for movie_id, estimated_rating in top_movies:
    movie_title = get_movie_title_from_id(movie_id, recomendador_producido)
    print(movie_title, "(ID:", movie_id, ") - Est. Rating:", estimated_rating)


Collecting surprise
  Downloading surprise-0.1-py2.py3-none-any.whl (1.8 kB)
Collecting scikit-surprise (from surprise)
  Downloading scikit-surprise-1.1.3.tar.gz (771 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m772.0/772.0 kB[0m [31m5.3 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: scikit-surprise
  Building wheel for scikit-surprise (setup.py) ... [?25l[?25hdone
  Created wheel for scikit-surprise: filename=scikit_surprise-1.1.3-cp310-cp310-linux_x86_64.whl size=3162676 sha256=38bedd07be8339e1e4d2357b1688d1319df6e6a9d1a4bdda21ffd6e068669754
  Stored in directory: /root/.cache/pip/wheels/a5/ca/a8/4e28def53797fdc4363ca4af740db15a9c2f1595ebc51fb445
Successfully built scikit-surprise
Installing collected packages: scikit-surprise, surprise
Successfully installed scikit-surprise-1.1.3 surprise-0.1
Película elegida aleatoriamente para el usuario 86837 :
The Bridge (ID: 315 )

Top 

# **Aplicación Web Interactiva**

Crearemos una aplicación web interactiva donde los usuarios podrán recibir **recomendaciones de 10 películas con solo hacer click en el botón "Mostrar recomendaciones"** de la aplicación.

El código utilizará Dash para crear la aplicación web interactiva que además actualizará dinámicamente el contenido de la página web en función de la interacción del usuario.

In [None]:
import pandas as pd
import random
! pip install dash
import dash
from dash import html, dcc, Output, Input
from dash.exceptions import PreventUpdate
from surprise import Dataset, Reader, SVD
from surprise.model_selection import train_test_split


unique_user_ids = recomendador_producido['userId'].unique()

# Crear la aplicación Dash
app = dash.Dash(__name__)

# Definir el layout de la aplicación
app.layout = html.Div([
    html.H1("Recomendaciones de Películas"),
    html.Div(id='output-container-button',
             children=[
                 html.Button('Mostrar recomendaciones', id='button'),
                 html.Div(id='output-container')
             ])
])

# Callback para mostrar las recomendaciones cuando se hace clic en el botón
@app.callback(
    Output('output-container', 'children'),
    [Input('button', 'n_clicks')]
)

def update_output(n_clicks):
    if not n_clicks:
        raise PreventUpdate

    # Seleccionar aleatoriamente un userId existente
    userId = random.choice(unique_user_ids)

    # Filtrar DataFrame para obtener todos los movieId asociados con userId seleccionado
    movies_for_user = recomendador_producido.loc[recomendador_producido['userId'] == userId, 'movieId'].unique()

    # Seleccionar aleatoriamente un movieId asociado con userId seleccionado
    random_movie_id = random.choice(movies_for_user)

    # Obtener las mejores recomendaciones para el usuario
    recommendations = []
    for uid, iid, true_r, est, _ in predictions:
        if uid == userId:
            recommendations.append((iid, est))
    recommendations.sort(key=lambda x: x[1], reverse=True)
    top_movies = recommendations[:10]

    # Mostrar la película elegida aleatoriamente para el usuario
    random_movie_title = get_movie_title_from_id(random_movie_id, recomendador_producido)
    random_movie_output = html.Div([
        html.H3("Película elegida aleatoriamente para el usuario {}".format(userId)),
        html.P("{} (ID: {})".format(random_movie_title, random_movie_id))
    ])

    # Mostrar las recomendaciones para el usuario
    top_movies_output = html.Div([
        html.H3("Top 10 películas recomendadas para el usuario {}".format(userId)),
        html.Ul([
            html.Li("{} (ID: {}) - Est. Rating: {:.2f}".format(get_movie_title_from_id(movie_id, recomendador_producido), movie_id, estimated_rating))
            for movie_id, estimated_rating in top_movies
        ])
    ])

    return [random_movie_output, top_movies_output]

# Ejecuta la aplicación en esta celda de resultado de Google colab
#if __name__ == '__main__':
    #app.run_server(debug=True)



Collecting dash
  Downloading dash-2.15.0-py3-none-any.whl (10.2 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m10.2/10.2 MB[0m [31m29.9 MB/s[0m eta [36m0:00:00[0m
Collecting dash-html-components==2.0.0 (from dash)
  Downloading dash_html_components-2.0.0-py3-none-any.whl (4.1 kB)
Collecting dash-core-components==2.0.0 (from dash)
  Downloading dash_core_components-2.0.0-py3-none-any.whl (3.8 kB)
Collecting dash-table==5.0.0 (from dash)
  Downloading dash_table-5.0.0-py3-none-any.whl (3.9 kB)
Collecting retrying (from dash)
  Downloading retrying-1.3.4-py3-none-any.whl (11 kB)
Installing collected packages: dash-table, dash-html-components, dash-core-components, retrying, dash
Successfully installed dash-2.15.0 dash-core-components-2.0.0 dash-html-components-2.0.0 dash-table-5.0.0 retrying-1.3.4


<IPython.core.display.Javascript object>

# **Ejecución de la App desde la terminal**

Para poder ver la aplicación en una pestaña del navegador en local, ejecutar el archivo app.py desde la terminal del ordenador.

Para ello hay que seguir los siguientes pasos:
- ambos archivos, **app.py** y **recomendador_producido.csv**, deberán encontrarse en la misma carpeta local.
- desde la terminal ``cd /Users/estefaniajimenezsaavedra/TFM_recomendador_peliculas/``

    (**sustituir /Users/estefaniajimenezsaavedra/TFM_recomendador_peliculas/ por la ruta local**).
- una vez en el directorio donde se encuentra el archivo app.py, ejecutar el comando **python3 app.py**.


Cuando la terminal termine de leer el script del archivo app.py, ésta ofrecerá el link de la url (Dash is running on http://127.0.0.1:8050/) sobre el que hacer click para abrir en una pestaña del navegador la aplicación en local.


**Para cerrar la aplicación desde la terminal:**
Press CTRL+C

## **Resumen**

 Aunque el modelo funciona y **genera recomendaciones**, son **poco personalizadas y relevantes.**

 Prepararemos un **enfoque más elaborado que considere características adicionales** en el Notebook de Google Colab llamado **2.Anexo Productivizacion Recomendador colaborativo enriquecido (enfoque usuario).**