In [1]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from datetime import datetime
from sklearn.preprocessing import power_transform

En este script, se realizará el procesamiento y limpieza referente al modelo de la baseline, por tanto, no implica los cambios definitivos.

Cada transformacion y limpieza se ha realizado dadas las observaciones y analisis del EDA.

In [4]:
# Carga de datos
df_ratings = pd.read_parquet('../raw/data_model/ratings_train.parquet')
df_tags = pd.read_parquet('../raw/data_model/tags_train.parquet')

In [5]:
df_tags.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9367814 entries, 0 to 9367813
Data columns (total 4 columns):
 #   Column     Dtype  
---  ------     -----  
 0   movieId    int64  
 1   tagId      int64  
 2   relevance  float64
 3   tag        object 
dtypes: float64(1), int64(2), object(1)
memory usage: 285.9+ MB


In [6]:
df_ratings.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16000175 entries, 0 to 16000174
Data columns (total 6 columns):
 #   Column     Dtype  
---  ------     -----  
 0   userId     float64
 1   movieId    int64  
 2   rating     float64
 3   timestamp  float64
 4   title      object 
 5   genres     object 
dtypes: float64(3), int64(1), object(2)
memory usage: 732.4+ MB


Transformaciones de variables e ingenieria de caracteristicas en df_tags

In [5]:
# Nos quedamos con el top 3 tag mas relevante por cada movieId
df_tags = df_tags.groupby('movieId').apply(lambda x: x.nlargest(3, 'relevance')).reset_index(drop=True)

In [6]:
# Tranformamos distribucion relevance a normal, se encuentra sesgada
def distribution_relevance_dfTags(df_tags):
    df_tags_copy = df_tags.copy()
    df_tags_copy['relevance']=power_transform(df_tags_copy[['relevance']], method='box-cox')
    return df_tags_copy

In [7]:
df_tags=distribution_relevance_dfTags(df_tags) # Realizamos transformacion de distribucion relevance

Fusionamos dataset rating y tags

In [8]:
df_fullData = df_ratings.merge(df_tags, how='right', on='movieId')

Limpieza de datos: nulos y duplicados

In [9]:
# df_ratings, revisando nulos
df_fullData.isna().sum()

userId       36
movieId       0
rating       36
timestamp    36
title         6
genres        6
tagId         0
relevance     0
tag           0
dtype: int64

In [10]:
# Los valores nulos de df_ratings los modificaremos con el valor 0
def imputer_(df_ratings):
    df_ratings_copy = df_ratings.copy()
    
    # Columnas numéricas
    columns_numeric = ['userId', 'rating', 'timestamp']
    imp_numeric = SimpleImputer(strategy="constant", fill_value=0)
    df_ratings_copy[columns_numeric] = imp_numeric.fit_transform(df_ratings_copy[columns_numeric])

    # Columnas categóricas
    columns_categorical = ['title', 'genres']
    imp_categorical = SimpleImputer(strategy="constant", fill_value='unknown')
    df_ratings_copy[columns_categorical] = imp_categorical.fit_transform(df_ratings_copy[columns_categorical])

    return df_ratings_copy

In [11]:
df_ratings= imputer_(df_fullData)# llamada a funcion de limpieza de nulos 

Referente a los valores nulos, hemos modificado los NaN a 0, dado que hay peliculas en el df_ratings que no han sido valoradas por ningun usuario.
Asi tambien, he modificado los NaN de las categoricas a 'unknown'.

In [19]:
# df_ratings, revisando duplicados en titulos (no queremos el mismo titulo mas de 1 vez)
df_ratings.nunique() # Comprobamos los valores duplicados por columnas

userId         138494
movieId         10381
rating             11
timestamp    12537612
title           10380
genres            931
tagId            1019
relevance        1614
tag              1019
dtype: int64

El dataset se encuentran correctamente con respecto a los duplicados.
- En title no tenemos ningun titulo igual repetido. Lo unico repetido son los valores unknown
- En tags tenemos la misma cantidad de tag como de su id.

Transformaciones de variables e ingenieria de caracteristicas en df_ratings

In [20]:
# Transformamos las variables del dataset df_ratings
# Timestamp, convertimos a datetime (referente a fecha de valoracion)
def timestamp_to_datetime_dfRatings(df_ratings):
    df_ratings_copy = df_ratings.copy()
    # Convertimos el timestamp a datetime, luego aplicamos el formato año/mes/dia devolviendo un string
    df_ratings_copy['date_rating'] = df_ratings_copy['timestamp'].apply(lambda x: datetime.fromtimestamp(x).strftime('%Y-%m-%d'))
    # Transformamos a Date el String
    df_ratings_copy['date_rating'] = df_ratings_copy['date_rating'].apply(lambda x: datetime.strptime(x, '%Y-%m-%d'))
    # Eliminamos variable timestamp
    df_ratings_copy.drop('timestamp', axis=1, inplace=True)

    return df_ratings_copy

In [21]:
df_ratings=timestamp_to_datetime_dfRatings(df_ratings) # Transforma timestamp a datetime (las fechas no valoradas se veran asi:"1970-01-01")

In [25]:
# Transformamos las variables del dataset df_ratings
# date_rating, separamos año,mes y dia en variables independientes
def date_rating_indepenDates(df_ratings):
    df_ratings_copy = df_ratings.copy()
    # Extraemos en variables sepadas el año, mes y dia de date_rating
    df_ratings_copy['year_rate'] = df_ratings_copy['date_rating'].dt.year
    df_ratings_copy['month_rate'] = df_ratings_copy['date_rating'].dt.month
    df_ratings_copy['day_rate'] = df_ratings_copy['date_rating'].dt.day
    # Eliminamos variable timestamp
    df_ratings_copy.drop('date_rating', axis=1, inplace=True)
    return df_ratings_copy

In [26]:
df_ratings=date_rating_indepenDates(df_ratings)# Extraemos fechas independientes

In [29]:
# Transformamos las variables del dataset df_ratings
# title, Extraemos el año de publicacion de cada pelicula en una variable nueva
def launchYear_title_dfRatings(df_ratings):
    df_ratings_copy = df_ratings.copy()
    # Extraemos con expresiones regulares los años del title, rellenamos los nulos con 0 y casteamos a int
    df_ratings_copy['launch_year'] = df_ratings_copy['title'].str.extract(r'\((\d{4})\)', expand=False).fillna('0').astype(int)
    # Eliminamos el año y cualquier contenido entre paréntesis en la columna 'title'
    df_ratings_copy['title'] = df_ratings_copy['title'].apply(lambda x: x.split(' (')[0])
    return df_ratings_copy

In [30]:
df_ratings=launchYear_title_dfRatings(df_ratings) # Extrae año del titulo

In [31]:
# Transformamos las variables del dataset df_ratings
# Convertimos userId a entero
def int_userId_dfRatings(df_ratings):
    df_ratings_copy=df_ratings.copy()
    # Convertir 'userId' a int
    df_ratings_copy['userId'] = pd.to_numeric(df_ratings_copy['userId'], errors='coerce').astype('int64')
    return df_ratings_copy

In [32]:
df_ratings=int_userId_dfRatings(df_ratings)# Convierte userId a entero

In [33]:
# Transformamos las variables del dataset df_ratings
# Extraemos la longitud de cada title y lo añadimos como nueva variable
def lenTitle_dfRatings(df_ratings):
    df_ratings_copy=df_ratings.copy()
    #Extraemos la longitud de cada uno de los titulos
    df_ratings_copy['len_title']=df_ratings_copy['title'].apply(lambda x: len(x))

    return df_ratings_copy

In [34]:
df_ratings=lenTitle_dfRatings(df_ratings) # Extraemos longitud del titulo

In [35]:
# Transformamos las variables del dataset df_ratings
# Extraemos  el genero principal de cada movieId (se considera principal al primero que aparece en genres antes del '|')
def mainGenre_dfRatings(df_ratings):
    df_ratings_copy=df_ratings.copy()
    # Extraemos el primer genero de la columna genres y lo almacenamos en una nueva variable
    df_ratings_copy['main_genre']=df_ratings_copy['genres'].apply(lambda x: x.split('|')[0])
    return df_ratings_copy


In [36]:
df_ratings=mainGenre_dfRatings(df_ratings) #Extraemos genero principal

In [40]:
# Guardamos cambios de datos procesados (esto nos permite un mayor control ante nuevos cambios)
df_ratings.to_parquet('../raw/data_model/dataset_process_trainV0.1.parquet', index=False)