## Concatenación de archivos

*Ladino Álvarez Ricardo Arturo*

El siguiente código está diseñado para demostrar un enfoque eficiente en la concatenación de múltiples archivos en un único conjunto de datos.

#-> Para más información sobre el tema consultar: https://pandas.pydata.org/docs/user_guide/merging.html

In [1]:
### Librerias

import os
import glob
import pandas as pd

### Rutas de entrada y salida

Entrada = 'C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES/'
Salida = 'C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES/'

> El código esta adaptado para manejar excepciones y evitar que un error en un archivo detenga todo el proceso.

In [2]:
### Usar glob para obtener una lista de todos los archivos .xlsx en la carpeta
### Se puede cambiar '*.xlsx' por otro tipo de archivo
Archivos_ = glob.glob(os.path.join(Entrada, '*.xlsx'))

### Siempre es necesario verificar si se encontraron o no los archivos solicitados
### En el caso que no se encuentres los archivos se recomienda detener el Kernel para eso activar "exit()"
if not Archivos_:
    print("No se encontraron archivos de Excel en la ruta especificada.")
    #exit()
else:
    print(f"Se encontraron {len(Archivos_)} archivos")


Se encontraron 6 archivos


In [3]:
### Se inicializa una lista para almacenar cada uno de los libros los cuales
### se guardaran temporalmente en python como DataFrames
Lista_Libros = []
# Itera sobre cada archivo y lo lee
for Archivos in Archivos_:
    try:
        # Lee el archivo Excel en un DataFrame
        Dat_Fra = pd.read_excel(Archivos)
        # Añade el DataFrame a la lista
        Lista_Libros.append(Dat_Fra)
        print(f"Archivo cargado: {Archivos}")
    except Exception as e:
        print(f"Error al leer {Archivos}: {e}")

Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_16A_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_22B_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_25A_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_29B_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_32C_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_5B_F.xlsx


In [16]:
### Concatenación de los Dataframes
if Lista_Libros:
    try:
        ### Se concatenan todos los archivos en uno solo
        Concatenado = pd.concat(Lista_Libros, ignore_index=True)
        ### Se exporta el archivo como uno solo, ese puede ser en formato "xlsx" o "pkl", se recomienda "pkl"
        
        #Concatenado.to_excel('Concatenado.xlsx', index=False)
        #Concatenado.to_pickle('Concatenado.pkl')
        
        print("Todos los archivos se han concatenado exitosamente")
    except Exception as e:
        print(f"Error al concatenar los DataFrames: {e}")
else:
    print("No se cargaron DataFrames para concatenar.")

Todos los archivos se han concatenado exitosamente


In [6]:
Concatenado.shape

(10156, 25)

In [7]:
Concatenado.UAD.unique()

array(['CUERNAVACA', 'CANCUN', 'HERMOSILLO', 'VERACRUZ',
       'ORIENTE DE LA CIUDAD DE MÉXICO', 'TORREON'], dtype=object)

### Cuando un archivo _NO_ es igual

In [18]:
lista_dfs = []
columnas_referencia = None
for archivo in Archivos_:
    try:
        df = pd.read_excel(archivo)
### Si columnas_referencia es None, esto significa que es el primer archivo que esta siendo procesado y sera la base
        if columnas_referencia is None:
            ### Se almacenan las columnas del primer archivo como referencia
            columnas_referencia = set(df.columns)
            ### Se añade el DataFrame del primer archivo a la lista que se crea al inicio
            lista_dfs.append(df)
            print(f"Archivo cargado: {archivo}")
### Si no es el primer archivo, verifica si las columnas coinciden con las de referencia
        else:
            ### Se comparan las columnas del archivo actual con las de referencia
            if set(df.columns) == columnas_referencia:
                ### Se añade el DataFrame a la lista creada al inicio solo si las columnas coinciden
                lista_dfs.append(df)
                print(f"Archivo cargado: {archivo}")
            else:
                ### Se debe informar cual es el archivo que se omitido por la(s) columna(s) que no coinciden
                print(f"Archivo omitido (columnas no coinciden): {archivo}")
    except Exception as e:
        print(f"Error al leer {archivo}: {e}")

Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_16A_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_22B_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_25A_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_29B_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_32C_F.xlsx
Archivo cargado: C:/Users/LAAR8976/Ladino_ALL/CECTI/DASHBOARD/TABLAS_FINALES\R6_5B_F.xlsx


In [19]:
### Concatenación
if lista_dfs:
    try:
        df_concatenado = pd.concat(lista_dfs, ignore_index=True)
        #df_concatenado.to_excel('Concatenado.xlsx', index=False)
        #df_concatenado.to_pickle('Concatenado.pkl')
        print("Todos los archivos se han concatenado exitosamente")
    except Exception as e:
        print(f"Error al concatenar los DataFrames: {e}")
else:
    print("No se cargaron DataFrames para concatenar.")

Todos los archivos se han concatenado exitosamente


In [20]:
df_concatenado.shape

(10156, 24)

In [21]:
df_concatenado.UAD.unique()

array(['CUERNAVACA', 'CANCUN', 'HERMOSILLO', 'VERACRUZ',
       'ORIENTE DE LA CIUDAD DE MÉXICO', 'TORREON'], dtype=object)