In [22]:
#Importarmos la librerias necesarias
import pandas as pd
import os

In [23]:
# Definir rutas relativas
ratings_path = '../data/ratings.csv'
movies_path = '../data/movies.csv'

In [24]:
# Cargar datasets
ratings = pd.read_csv(ratings_path)
movies = pd.read_csv(movies_path)

print(f"Dimensiones de Ratings: {ratings.shape}")
print(f"Dimensiones de Movies: {movies.shape}")

Dimensiones de Ratings: (100836, 4)
Dimensiones de Movies: (9742, 3)


In [25]:
#Mostaramos los datos
display(movies.head())
display(ratings.head())

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [26]:
print("--- Info de Movies ---")
movies.info()

print("\n--- Info de Ratings ---")
ratings.info()

print("\n--- Nulos en Movies ---")
print(movies.isnull().sum())

print("\n--- Nulos en Ratings ---")
print(ratings.isnull().sum())

--- Info de Movies ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9742 entries, 0 to 9741
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   movieId  9742 non-null   int64 
 1   title    9742 non-null   object
 2   genres   9742 non-null   object
dtypes: int64(1), object(2)
memory usage: 228.5+ KB

--- Info de Ratings ---
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100836 entries, 0 to 100835
Data columns (total 4 columns):
 #   Column     Non-Null Count   Dtype  
---  ------     --------------   -----  
 0   userId     100836 non-null  int64  
 1   movieId    100836 non-null  int64  
 2   rating     100836 non-null  float64
 3   timestamp  100836 non-null  int64  
dtypes: float64(1), int64(3)
memory usage: 3.1 MB

--- Nulos en Movies ---
movieId    0
title      0
genres     0
dtype: int64

--- Nulos en Ratings ---
userId       0
movieId      0
rating       0
timestamp    0
dtype: int64


In [27]:
# Unimos ratings con movies usando la columna en común 'movieId'
df = pd.merge(ratings, movies, on='movieId', how='inner')

# Veamos cómo queda el dataset maestro
display(df.head())

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


* Hipótesis: Unas pocas películas (blockbusters) tienen la mayoría de las calificaciones. La gran mayoría de películas tienen muy pocas calificaciones.

* Por qué importa: A los modelos les cuesta aprender patrones de películas con pocos datos.

In [28]:
# Contar las calificaciones por titulo
rating_counts = df.groupby('title')['rating'].count().sort_values(ascending=False)

# Top 10 peliculas mas votadas
print("--- Top 10 Películas más votadas ---")
print(rating_counts.head(10))

# Estadísticas básicas
print(f"\nPelícula con más votos: {rating_counts.max()} votos")
print(f"Película con menos votos: {rating_counts.min()} votos")

--- Top 10 Películas más votadas ---
title
Forrest Gump (1994)                          329
Shawshank Redemption, The (1994)             317
Pulp Fiction (1994)                          307
Silence of the Lambs, The (1991)             279
Matrix, The (1999)                           278
Star Wars: Episode IV - A New Hope (1977)    251
Jurassic Park (1993)                         238
Braveheart (1995)                            237
Terminator 2: Judgment Day (1991)            224
Schindler's List (1993)                      220
Name: rating, dtype: int64

Película con más votos: 329 votos
Película con menos votos: 1 votos


In [29]:
n_users = df['userId'].nunique()
n_items = df['movieId'].nunique()
n_ratings = len(df)

# Total de celdas posibles en la matriz
total_possible_ratings = n_users * n_items

# Sparsity (%)
sparsity = (1 - (n_ratings / total_possible_ratings)) * 100

print(f"Número de usuarios únicos: {n_users}")
print(f"Número de películas únicas: {n_items}")
print(f"Sparsity del dataset: {sparsity:.4f}%")

Número de usuarios únicos: 610
Número de películas únicas: 9724
Sparsity del dataset: 98.3000%


In [30]:
# GUARDADO DE DATOS PARA MODELADO
# ---------------------------------------------------------
# Definimos la ruta de salida (subimos un nivel con '..' y entramos a 'data')
output_path = '../data/df_final_procesado.pkl'

# Guardamos el dataframe 'df' que creaste con el merge
df.to_pickle(output_path)

print(f"✅ Dataset maestro guardado exitosamente en: {output_path}")
print(f"Dimensiones finales guardadas: {df.shape}")

✅ Dataset maestro guardado exitosamente en: ../data/df_final_procesado.pkl
Dimensiones finales guardadas: (100836, 6)
