## This program will combine multiple csv obtained from Meta Analytics into one and then combine it with the Image Dataset ##

In [32]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import glob

In [33]:
# Especifica la carpeta que contiene los archivos CSV
folder_path = 'datasets/meta/'

# Usa glob para encontrar todos los archivos CSV en la carpeta especificada
file_list = glob.glob(folder_path + '*.csv')

# Crea una lista de dataframes a partir de los archivos CSV
dfs = [pd.read_csv(file) for file in file_list]

# Combina todos los dataframes usando outer join para conservar todas las columnas
combined_df = pd.concat(dfs, ignore_index=True, sort=False)

# Rellena las celdas vacías con NaN
combined_df.fillna(pd.NA, inplace=True)

# Convierte todas las columnas a tipo str (cadena de texto)
combined_df = combined_df.astype(str)




In [34]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 702 entries, 0 to 701
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   Identificador de la publicación  702 non-null    object
 1   Identificador de la cuenta       702 non-null    object
 2   Nombre de usuario de la cuenta   702 non-null    object
 3   Nombre de la cuenta              702 non-null    object
 4   Descripción                      702 non-null    object
 5   Duración (segundos)              702 non-null    object
 6   Hora de publicación              702 non-null    object
 7   Enlace permanente                702 non-null    object
 8   Tipo de publicación              702 non-null    object
 9   Comentario sobre los datos       702 non-null    object
 10  Fecha                            702 non-null    object
 11  Alcance                          702 non-null    object
 12  Me gusta                         702

In [35]:
 #Step 2. Prepare the dataset for analysis
df_interim = (
    combined_df
    .copy()
    .set_axis(
        combined_df.columns.str.replace(' ', '_') # reemplazar espacio por _
        .str.replace('á', 'a') # reemplazar
        .str.replace('é', 'e') # reemplazar
        .str.replace('í', 'i') # reemplazar
        .str.replace('ó', 'o') # reemplazar
        .str.replace('ú', 'u') # reemplazar
        .str.replace(r'\W','',regex=True) # reemplazar caracteres no alfabéticos por nada
        .str.lower() # el resultado lo pasamos a minúsculas
        .str.slice(0,40), axis=1, # slice sirve para cortar el texto a un máximo de 40 caracteres
    )
    

)
df_interim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 702 entries, 0 to 701
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   identificador_de_la_publicacion  702 non-null    object
 1   identificador_de_la_cuenta       702 non-null    object
 2   nombre_de_usuario_de_la_cuenta   702 non-null    object
 3   nombre_de_la_cuenta              702 non-null    object
 4   descripcion                      702 non-null    object
 5   duracion_segundos                702 non-null    object
 6   hora_de_publicacion              702 non-null    object
 7   enlace_permanente                702 non-null    object
 8   tipo_de_publicacion              702 non-null    object
 9   comentario_sobre_los_datos       702 non-null    object
 10  fecha                            702 non-null    object
 11  alcance                          702 non-null    object
 12  me_gusta                         702

In [36]:
df_interim['hora_de_publicacion'] = pd.to_datetime(df_interim['hora_de_publicacion'], format='%m/%d/%Y %H:%M')

In [37]:
df_interim = df_interim.sort_values(by='hora_de_publicacion')


In [38]:
df_interim.reset_index(drop=True, inplace=True)

In [39]:
df_interim.head()

Unnamed: 0,identificador_de_la_publicacion,identificador_de_la_cuenta,nombre_de_usuario_de_la_cuenta,nombre_de_la_cuenta,descripcion,duracion_segundos,hora_de_publicacion,enlace_permanente,tipo_de_publicacion,comentario_sobre_los_datos,...,alcance,me_gusta,veces_que_se_compartio,visitas_al_perfil,respuestas,navegacion,clics_en_el_enlace,seguimientos,toques_en_stickers,visualizaciones
0,17994711058627085,17841408055500202,jessonirica,"Jess Onírica | Sueños, creatividad, espiritual...",En la recta final del Guadalupe -Reyes,0,2023-01-01 15:32:00,,Historia de Instagram,,...,,3,0,,0,,,,,
1,17989247059674185,17841408055500202,jessonirica,"Jess Onírica | Sueños, creatividad, espiritual...",,0,2023-01-01 16:17:00,,Historia de Instagram,,...,,4,0,,0,,,,,
2,17953813415188610,17841408055500202,jessonirica,"Jess Onírica | Sueños, creatividad, espiritual...",Faltan 303 días \npara Halloween,0,2023-01-01 18:34:00,,Historia de Instagram,,...,,5,0,,0,,,,,
3,17973503881980868,17841408055500202,jessonirica,"Jess Onírica | Sueños, creatividad, espiritual...",Para el frío,0,2023-01-03 18:36:00,,Historia de Instagram,,...,,7,0,,0,,,,,
4,17974040296969337,17841408055500202,jessonirica,"Jess Onírica | Sueños, creatividad, espiritual...",,13,2023-01-03 20:16:00,,Historia de Instagram,,...,,3,0,,0,,,,,


In [40]:
# Guarda el dataframe combinado en un nuevo archivo CSV
df_interim.to_csv('datasets/extras/archivo_combinado.csv', index=False)

In [41]:
df_interim.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 702 entries, 0 to 701
Data columns (total 21 columns):
 #   Column                           Non-Null Count  Dtype         
---  ------                           --------------  -----         
 0   identificador_de_la_publicacion  702 non-null    object        
 1   identificador_de_la_cuenta       702 non-null    object        
 2   nombre_de_usuario_de_la_cuenta   702 non-null    object        
 3   nombre_de_la_cuenta              702 non-null    object        
 4   descripcion                      702 non-null    object        
 5   duracion_segundos                702 non-null    object        
 6   hora_de_publicacion              702 non-null    datetime64[ns]
 7   enlace_permanente                702 non-null    object        
 8   tipo_de_publicacion              702 non-null    object        
 9   comentario_sobre_los_datos       702 non-null    object        
 10  fecha                            702 non-null    object       