In [4]:
import pandas as pd
import os

##### Juntamos todos los archivos .csv en un DataFrame.

In [2]:

def load_files_from_directory(directorio, prefijo):
    dataframes = []
    # Listamos todos los archivos en el directorio
    for filename in os.listdir(directorio):
        # Filtramos por género usando el prefijo y asegurarse de que es un archivo CSV
        if filename.startswith(prefijo) and filename.endswith('.csv'):
            filepath = os.path.join(directorio, filename)
            df = pd.read_csv(filepath)
            df['Genero'] = prefijo  # Usar el prefijo como género
            dataframes.append(df)
    return pd.concat(dataframes, ignore_index=True) if dataframes else pd.DataFrame()


directorio_base = "/Users/patriciagonzalez/Adalab/modulo_2/proyecto-da-promo-H-modulo-2-team-2-Bombshell/peliculas_API"

df_accion = load_files_from_directory(directorio_base, "Accion")
df_drama = load_files_from_directory(directorio_base, "Drama")
df_comedia = load_files_from_directory(directorio_base, "Comedia")

# Concatenar todos los DataFrames
df_final = pd.concat([df_accion, df_drama, df_comedia], ignore_index=True)



In [6]:
df_final

Unnamed: 0,Tipo,Nombre,Año de Estreno,Mes de Estreno,ID de la Película,Genero
0,Movie,Pál Adrienn,2011,6,tt0146592,Accion
1,Movie,Oda az igazság,2010,2,tt0154039,Accion
2,Movie,A zöld sárkány gyermekei,2011,4,tt0162942,Accion
3,Movie,The Final Journey,2010,9,tt0230212,Accion
4,Movie,In My Sleep,2010,4,tt0326965,Accion
...,...,...,...,...,...,...
44195,Short,Married Life,2024,1,tt31308988,Comedia
44196,Short,Concept High,Desconocido,Desconocido,tt31314922,Comedia
44197,Short,Satisfaction,2024,1,tt31316077,Comedia
44198,Short,Party Pooper,2024,2,tt31319755,Comedia


# Ahora usamos diferentes métodos de pandas para mejorar el DataFrama 'df_final'.

Se han duplicado resultados al juntar los DataFrames, porque la API repite peliculas al buscarlas por diferentes géneros (y no nos permite buscar varios géneros a la vez) asi que los filtramos (El mismo ID puede aparecer en diferentes busquedas por género, es decir puede estar catalogada como comedia/drama o accion/comedia).

Asi que agrupamos por 'ID' y combinamos los géneros en una sola entrada:

In [16]:
df_final['Genero'] = df_final.groupby('ID de la Película')['Genero'].transform(lambda x: '/'.join(sorted(set(x))))
df_final['Genero']

0        Accion/Drama
1        Accion/Drama
2        Accion/Drama
3        Accion/Drama
4        Accion/Drama
             ...     
44195         Comedia
44196         Comedia
44197         Comedia
44198         Comedia
44199         Comedia
Name: Genero, Length: 44200, dtype: object

Después de combinar los géneros, puede haber filas duplicadas para cada película donde todo excepto el género es idéntico. 
Para eliminar estas filas duplicadas, las borramos basnndonos en la columna 'ID de la Película'.

In [18]:
df_final = df_final.drop_duplicates(subset='ID de la Película')
df_final

Unnamed: 0,Tipo,Nombre,Año de Estreno,Mes de Estreno,ID de la Película,Genero
0,Movie,Pál Adrienn,2011,6,tt0146592,Accion/Drama
1,Movie,Oda az igazság,2010,2,tt0154039,Accion/Drama
2,Movie,A zöld sárkány gyermekei,2011,4,tt0162942,Accion/Drama
3,Movie,The Final Journey,2010,9,tt0230212,Accion/Drama
4,Movie,In My Sleep,2010,4,tt0326965,Accion/Drama
...,...,...,...,...,...,...
44195,Short,Married Life,2024,1,tt31308988,Comedia
44196,Short,Concept High,Desconocido,Desconocido,tt31314922,Comedia
44197,Short,Satisfaction,2024,1,tt31316077,Comedia
44198,Short,Party Pooper,2024,2,tt31319755,Comedia


In [19]:

# df_final.to_csv("peliculas_api2.csv")

In [5]:
directorio= '/Users/patriciagonzalez/Adalab/modulo_2/proyecto-da-promo-H-modulo-2-team-2-Bombshell/actores_fase3'

In [6]:
archivos_csv = [archivo for archivo in os.listdir(directorio) if archivo.endswith('.csv')]

In [15]:
lista_dfs = [pd.read_csv(os.path.join(directorio, archivo)) for archivo in archivos_csv]

In [17]:

# Combinar todos los DataFrames en uno solo
df_final = pd.concat(lista_dfs, ignore_index=False)

In [18]:
# Mostrar el DataFrame combinado
df_final

Unnamed: 0.1,Unnamed: 0,nombre_peli,nombre_actxr,conocido_por,year_nacimiento,profesiones_string,premios
0,0,La vida secreta de Walter Mitty,Ben Stiller,"['Tropic Thunder: ¡Una guerra muy perra!', 'Zo...",1965,"Producción, Reparto, Dirección",18 premios y 69 nominaciones en total
1,1,La vida secreta de Walter Mitty,Kristen Wiig,"['La boda de mi mejor amiga', 'The Skeleton Tw...",1973,"Reparto, Producción, Guion",15 premios y 84 nominaciones en total
2,2,La vida secreta de Walter Mitty,Jon Daly,"['De-mentes criminales', 'Zoolander No. 2']",1977,"Reparto, Guion, Producción",3 nominaciones
3,3,La vida secreta de Walter Mitty,Kathryn Hahn,"['Afternoon Delight', 'Transparent']",1973,"Reparto, Producción, Guion",10 premios y 33 nominaciones en total
4,4,La vida secreta de Walter Mitty,Terence Bernie Hines,"['La vida secreta de Walter Mitty', 'I Think Y...",1969,"Reparto, Dirección, Guion",8 premios y 1 nominación
...,...,...,...,...,...,...,...
3089,3089,Chasing Cane: At What Cost,,['N/A'],,,
3090,3090,Chasing Cane: At What Cost,,['N/A'],,,
3091,3091,Chasing Cane: At What Cost,,['N/A'],,,
3092,3092,Chasing Cane: At What Cost,,['N/A'],,,


In [19]:
df_modificado = df_final.drop(['Unnamed: 0'], axis=1)

In [20]:
df_modificado

Unnamed: 0,nombre_peli,nombre_actxr,conocido_por,year_nacimiento,profesiones_string,premios
0,La vida secreta de Walter Mitty,Ben Stiller,"['Tropic Thunder: ¡Una guerra muy perra!', 'Zo...",1965,"Producción, Reparto, Dirección",18 premios y 69 nominaciones en total
1,La vida secreta de Walter Mitty,Kristen Wiig,"['La boda de mi mejor amiga', 'The Skeleton Tw...",1973,"Reparto, Producción, Guion",15 premios y 84 nominaciones en total
2,La vida secreta de Walter Mitty,Jon Daly,"['De-mentes criminales', 'Zoolander No. 2']",1977,"Reparto, Guion, Producción",3 nominaciones
3,La vida secreta de Walter Mitty,Kathryn Hahn,"['Afternoon Delight', 'Transparent']",1973,"Reparto, Producción, Guion",10 premios y 33 nominaciones en total
4,La vida secreta de Walter Mitty,Terence Bernie Hines,"['La vida secreta de Walter Mitty', 'I Think Y...",1969,"Reparto, Dirección, Guion",8 premios y 1 nominación
...,...,...,...,...,...,...
3089,Chasing Cane: At What Cost,,['N/A'],,,
3090,Chasing Cane: At What Cost,,['N/A'],,,
3091,Chasing Cane: At What Cost,,['N/A'],,,
3092,Chasing Cane: At What Cost,,['N/A'],,,


In [21]:
df_modificado= df_modificado.map(lambda x: None if pd.isna(x) else x)

In [25]:
df_modificado.to_csv('df_actores.csv')