In [1]:
import pandas as pd

# Cargar los archivos CSV
movies_df = pd.read_csv('movies_dataset_cleaned.csv')
credits_df = pd.read_csv('credits_processed.csv')

# Función para depurar el dataset de películas
def depurar_movies(df):
    # Convertir release_date a datetime
    df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
    
    # Calcular el retorno (revenue / budget)
    df['return'] = df.apply(lambda row: row['revenue'] / row['budget'] if row['budget'] > 0 else 0, axis=1)
    
    # Eliminar columnas innecesarias si las hay
    columnas_necesarias = ['id', 'title', 'release_date', 'popularity', 'vote_average', 'vote_count', 'budget', 'revenue', 'return']
    df = df[columnas_necesarias]
    
    return df

# Aplicar la depuración al dataset de películas
movies_df = depurar_movies(movies_df)

# Seleccionar las columnas necesarias de credits_df
credits_columns = ['id', 'actors', 'directors']
credits_df = credits_df[credits_columns]

# Realizar el merge de los datasets por 'id'
merged_df = pd.merge(movies_df, credits_df, on='id')

# Guardar el dataset resultante en un archivo Parquet
merged_df.to_parquet('movies_credits_merged.parquet', index=False)

# Mostrar las primeras filas del DataFrame final para verificar
print(merged_df.head())


      id                        title release_date  popularity  vote_average  \
0    862                    Toy Story   1995-10-30   21.946943           7.7   
1   8844                      Jumanji   1995-12-15   17.015539           6.9   
2  15602             Grumpier Old Men   1995-12-22   11.712900           6.5   
3  31357            Waiting to Exhale   1995-12-22    3.859495           6.1   
4  11862  Father of the Bride Part II   1995-02-10    8.387519           5.7   

   vote_count    budget      revenue     return  \
0      5415.0  30000000  373554033.0  12.451801   
1      2413.0  65000000  262797249.0   4.043035   
2        92.0         0          0.0   0.000000   
3        34.0  16000000   81452156.0   5.090760   
4       173.0         0   76578911.0   0.000000   

                                              actors        directors  
0  Tom Hanks, Tim Allen, Don Rickles, Jim Varney,...    John Lasseter  
1  Robin Williams, Jonathan Hyde, Kirsten Dunst, ...     Joe Johnsto