# Importar librerías

In [1]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

# Cargar archivos del dataset

In [2]:
movies_file = "dataset/movies.csv"
ratings_file = "dataset/ratings.csv"
ratings_df = pd.read_csv(ratings_file)
movies_df = pd.read_csv(movies_file)

In [3]:
ratings_df.head()

Unnamed: 0,userId,movieId,rating,timestamp
0,1,1,4.0,964982703
1,1,3,4.0,964981247
2,1,6,4.0,964982224
3,1,47,5.0,964983815
4,1,50,5.0,964982931


In [4]:
movies_df.head()

Unnamed: 0,movieId,title,genres
0,1,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,2,Jumanji (1995),Adventure|Children|Fantasy
2,3,Grumpier Old Men (1995),Comedy|Romance
3,4,Waiting to Exhale (1995),Comedy|Drama|Romance
4,5,Father of the Bride Part II (1995),Comedy


# Verificar y Limpiar de datos
Combinar el dataframe 'ratings_df' y 'movies_df' concatenados por el valor de la columna 'movieId'

In [5]:
df = ratings_df.merge(movies_df,on='movieId', how='left')
df.head()

Unnamed: 0,userId,movieId,rating,timestamp,title,genres
0,1,1,4.0,964982703,Toy Story (1995),Adventure|Animation|Children|Comedy|Fantasy
1,1,3,4.0,964981247,Grumpier Old Men (1995),Comedy|Romance
2,1,6,4.0,964982224,Heat (1995),Action|Crime|Thriller
3,1,47,5.0,964983815,Seven (a.k.a. Se7en) (1995),Mystery|Thriller
4,1,50,5.0,964982931,"Usual Suspects, The (1995)",Crime|Mystery|Thriller


Devolver el número de valores faltantes en cada columna

In [6]:
df.isna().sum()

userId       0
movieId      0
rating       0
timestamp    0
title        0
genres       0
dtype: int64

# Transformar los datos

In [7]:
min_rating = min(df["rating"])
max_rating = max(df["rating"])

df = df.sample(frac=1, random_state=42)

# Conjunto original de los datos
# Crear el emparejamiento tradicional (x, y) 
x = df[["userId", "movieId"]].values

# Normalización Min-Max. 
y = df["rating"].apply(lambda x: (x - min_rating) / (max_rating - min_rating)).values

#Dividir los datos en conjuntos de datos de entrenamiento y prueba.
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.1, random_state=42)

In [8]:
print("Datos de entrenamiento",x_train.shape, y_train.shape)
print("Datos de prueba",x_test.shape, y_test.shape)

Datos de entrenamiento (90752, 2) (90752,)
Datos de prueba (10084, 2) (10084,)


# Ingeniería de características (Técnica Operaciones de agrupación)
La media de las calificaciones que tiene cada película del conjunto de datos.

In [12]:
mean_rating = pd.DataFrame(df.groupby('title')['rating'].mean())
mean_rating.tail()

Unnamed: 0_level_0,rating
title,Unnamed: 1_level_1
eXistenZ (1999),3.863636
xXx (2002),2.770833
xXx: State of the Union (2005),2.0
¡Three Amigos! (1986),3.134615
À nous la liberté (Freedom for Us) (1931),1.0


El numero de calificaciones que tiene cada película del conjunto de datos.

In [13]:
mean_rating['Total Ratings'] = pd.DataFrame(df.groupby('title')['rating'].count())
mean_rating.tail()

Unnamed: 0_level_0,rating,Total Ratings
title,Unnamed: 1_level_1,Unnamed: 2_level_1
eXistenZ (1999),3.863636,22
xXx (2002),2.770833,24
xXx: State of the Union (2005),2.0,5
¡Three Amigos! (1986),3.134615,26
À nous la liberté (Freedom for Us) (1931),1.0,1
