In [12]:
import pandas as pd

# Carga del CSV
df = pd.read_csv('movies_credits_merged.csv')

df = pd.read_csv('movies_credits_merged.csv', delimiter=',')  # Si las columnas están separadas por comas
df = pd.read_csv('movies_credits_merged.csv', header=0)  # Usar la primera fila como encabezado
df = pd.read_csv('movies_credits_merged.csv', skip_blank_lines=True)

# Reemplazar valores nulos en las columnas revenue y budget por 0
df['revenue'] = df['revenue'].fillna(0)
df['budget'] = df['budget'].fillna(0)

# Eliminar filas donde 'release_date' sea nulo
df = df.dropna(subset=['release_date'])

# Guardar el DataFrame actualizado si es necesario
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

print("Valores nulos reemplazados con 0 en las columnas 'revenue' y 'budget'.")
print("Filas con valores nulos en 'release_date' eliminadas.")


Valores nulos reemplazados con 0 en las columnas 'revenue' y 'budget'.
Filas con valores nulos en 'release_date' eliminadas.


In [13]:

# Convertir la columna release_date al formato AAAA-mm-dd
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce').dt.strftime('%Y-%m-%d')
# Asegurar que 'release_date' esté en formato datetime
df['release_date'] = pd.to_datetime(df['release_date'], errors='coerce')
# Crear la nueva columna 'release_year' extrayendo el año de 'release_date'
df['release_year'] = df['release_date'].dt.year

# Eliminar filas con fechas inválidas (que se convierten en NaT)
df = df.dropna(subset=['release_date'])

# Guardar el DataFrame actualizado si es necesario
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

print("La columna 'release_date' se ha formateado a AAAA-mm-dd y las filas inválidas han sido eliminadas.")
print("La columna 'release_year' ha sido creada con éxito.")


La columna 'release_date' se ha formateado a AAAA-mm-dd y las filas inválidas han sido eliminadas.
La columna 'release_year' ha sido creada con éxito.


In [14]:
# Crear la columna 'return' calculando revenue / budget, reemplazando valores no disponibles con 0
df['return'] = df.apply(lambda row: row['revenue'] / row['budget'] if row['budget'] > 0 else 0, axis=1)

# Sobrescribir el archivo con los cambios
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

print("La columna 'return' ha sido creada con éxito.")


La columna 'return' ha sido creada con éxito.


In [15]:
# Eliminar las columnas especificadas
df = df.drop(columns=['video', 'imdb_id', 'adult', 'original_title', 'poster_path', 'homepage'])

# Sobrescribir el archivo con los cambios
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

print("Columnas Eliminas con exito.")

Columnas Eliminas con exito.


In [16]:
# Eliminar la columna original 'belongs_to_collection'
# Eliminar las columnas no necesarias para la interfaz de usuario
df = df.drop(columns=['belongs_to_collection','status', 'tagline','production_companies', 'production_countries', 'runtime', 
                      'revenue', 'budget','release_date'])
# Sobrescribir el archivo con los cambios
df.to_csv('movies_credits_merged_cleaned.csv', index=False)


In [17]:
# Extraer solo los nombres de los géneros de la columna 'genres'
df['genres'] = df['genres'].apply(lambda x: [genre['name'] for genre in eval(x)] if pd.notnull(x) else [])

# Sobrescribir el archivo con los cambios
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

# Confirmar que se ha hecho la modificación
print("La columna 'genres' ha sido modificada para contener solo los nombres de los géneros y el archivo ha sido actualizado.")


La columna 'genres' ha sido modificada para contener solo los nombres de los géneros y el archivo ha sido actualizado.


In [18]:
# Definir el nuevo orden de las columnas según el criterio lógico
new_order = [ 'title', 'original_language', 'release_year',
             'overview', 'genres',
              'return', 'spoken_languages', 'popularity', 'vote_average', 
             'vote_count', 'cast', 'crew']

# Reordenar las columnas en el DataFrame
df = df[new_order]

# Sobrescribir el archivo con el nuevo orden de las columnas
df.to_csv('movies_credits_merged_cleaned.csv', index=False)



In [19]:
# Extraer los idiomas de la columna 'spoken_languages' y crear una lista con solo los nombres de los idiomas
df['spoken_languages'] = df['spoken_languages'].apply(lambda x: [lang['name'] for lang in eval(x)] if isinstance(x, str) else [])

# Renombrar la columna 'spoken_languages' a 'languages'
df = df.rename(columns={'spoken_languages': 'languages'})

# Eliminar la columna 'original_language'
df = df.drop(columns=['original_language'])

# Sobrescribir el archivo con los cambios
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

# Confirmar el cambio
print("La columna 'spoken_languages' ha sido renombrada a 'languages', y 'original_language' ha sido eliminada.")


La columna 'spoken_languages' ha sido renombrada a 'languages', y 'original_language' ha sido eliminada.


In [20]:
# Extraer solo los campos 'character' y 'name' de cada diccionario en la lista de la columna 'cast'
df['cast'] = df['cast'].apply(lambda x: [{'character': member['character'], 'name': member['name']} for member in eval(x)] if isinstance(x, str) else [])

# Sobrescribir el archivo con los cambios
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

# Confirmar el cambio
print("La columna 'cast' ha sido actualizada para contener solo los campos 'character' y 'name'.")


La columna 'cast' ha sido actualizada para contener solo los campos 'character' y 'name'.


In [21]:
# Convertir las listas de cadenas (si es necesario)
# Si 'crew' es una cadena que representa una lista de diccionarios, usaremos ast.literal_eval para convertirla en una lista real
df['crew'] = df['crew'].apply(lambda x: ast.literal_eval(x) if isinstance(x, str) else x)

# Modificar la columna 'crew' para mantener solo 'job' y 'name'
df['crew'] = df['crew'].apply(lambda crew_list: [{'job': entry['job'], 'name': entry['name']} for entry in crew_list] if isinstance(crew_list, list) else crew_list)

# Guardar el DataFrame modificado de nuevo en el archivo CSV
df.to_csv('movies_credits_merged_cleaned.csv', index=False)

# Verificar el cambio
print(df[['crew']].head())  # Solo para verificar cómo quedó la columna 'crew'


                                                crew
0  [{'job': 'Director', 'name': 'John Lasseter'},...
1  [{'job': 'Executive Producer', 'name': 'Larry ...
2  [{'job': 'Director', 'name': 'Howard Deutch'},...
3  [{'job': 'Director', 'name': 'Forest Whitaker'...
4  [{'job': 'Original Music Composer', 'name': 'A...


In [22]:
# Eliminar filas con valores nulos en cualquier columna
df_clean = df.dropna()


In [23]:
# Filtrar filas que tienen el número correcto de columnas (por ejemplo, 20 columnas)
df_clean = df[df.apply(lambda row: len(row) == 11, axis=1)]


In [24]:
print(df_clean.head())


                         title  release_year  \
0                    Toy Story          1995   
1                      Jumanji          1995   
2             Grumpier Old Men          1995   
3            Waiting to Exhale          1995   
4  Father of the Bride Part II          1995   

                                            overview  \
0  Led by Woody, Andy's toys live happily in his ...   
1  When siblings Judy and Peter discover an encha...   
2  A family wedding reignites the ancient feud be...   
3  Cheated on, mistreated and stepped on, the wom...   
4  Just when George Banks has recovered from his ...   

                         genres     return            languages  popularity  \
0   [Animation, Comedy, Family]  12.451801            [English]   21.946943   
1  [Adventure, Fantasy, Family]   4.043035  [English, Français]   17.015539   
2             [Romance, Comedy]   0.000000            [English]   11.712900   
3      [Comedy, Drama, Romance]   5.090760            [Eng

In [27]:
# Filtrar filas donde 'release_year' no sea un número válido (año)
df_clean = df[df['release_year'].apply(lambda x: str(x).isdigit() and len(str(x)) == 4)]

df.to_csv('movies_credits_merged_cleaned.csv', index=False)
