In [3]:
import pandas as pd
import numpy as np
import os

# Ruta de la carpeta que contiene los archivos Excel
folder_path = '../../data/raw'

# Lista para almacenar los dataframes
dfs = []

# Iterar sobre los archivos en la carpeta
print("Iniciando lectura de archivos...")
for filename in os.listdir(folder_path):
    # Verificar si el archivo es un archivo Excel de un biorreactor y no acaba con ":Zone.Identifier"
    if filename.startswith("Centrífuga") and filename.endswith(".xlsx") and not filename.endswith(":Zone.Identifier"):
        print(f"Leyendo archivo {filename}...")
        # Leer el archivo Excel
        print("Leyendo archivo...")
        df = pd.read_excel(os.path.join(folder_path, filename), sheet_name="Datos")
        
        # Extraer el número del biorreactor del nombre del archivo
        print("Extrayendo número de centrífuga...")
        num_centrifuga = filename.split()[1].split('.')[0]
        
        # Añadir la columna "Num_biorreactor"
        print("Añadiendo columna 'Num_centrífuga'...")
        df['Num_centrifuga'] = float(num_centrifuga)

        #Eliminar "XXXXX_" de los nombres de las columnas (los 5 primeros números)
        print("Eliminando 'XXXXX_' de los nombres de las columnas...")
        df.columns = df.columns.str.replace(r'^\d{5}_', '', regex=True)
        
        # Reordenar columnas de tal manera: Datetime, EN_parcial, EN_total, D01780551.PV, D01906041.PV, D01916047.PV, D01916503.PV, D01919022.PV, Num_centrifuga
        print("Reordenando columnas...")
        df = df[['DateTime', 'CTF0101.EN_Parcial', 'CTF0101.EN_Total', 'D01780551.PV', 'D01906041.PV', 'D01916047.PV', 'D01916503.PV', 'D01919022.PV', 'Num_centrifuga']]

        #Renombrar columnas
        print("Renombrando columnas...")
        df.columns = ['DateTime', 'EN_parcial', 'EN_total', 'Apertura valvula agua', 'Caudal', 'Contrapresion', 'Presion agua', 'Velocidad separacion', 'Num_centrifuga']
        
        # Añadir el dataframe a la lista
        print("Añadiendo dataframe a la lista...")
        dfs.append(df)

# Concatenar todos los dataframes en uno solo (uniendo filas)
print("Concatenando dataframes...")
df_total = pd.concat(dfs, ignore_index=True)

# Guardar el dataframe resultante en un nuevo archivo Excel
print("Guardando archivo Excel...")
df_total.to_excel('../../data/processed/Centrifuga_Total.xlsx', index=False)

Iniciando lectura de archivos...
Leyendo archivo Centrífuga 17825.xlsx...
Leyendo archivo...
Extrayendo número de centrífuga...
Añadiendo columna 'Num_centrífuga'...
Eliminando 'XXXXX_' de los nombres de las columnas...
Reordenando columnas...
Renombrando columnas...
Añadiendo dataframe a la lista...
Leyendo archivo Centrífuga 12912.xlsx...
Leyendo archivo...
Extrayendo número de centrífuga...
Añadiendo columna 'Num_centrífuga'...
Eliminando 'XXXXX_' de los nombres de las columnas...
Reordenando columnas...
Renombrando columnas...
Añadiendo dataframe a la lista...
Leyendo archivo Centrífuga 14246.xlsx...
Leyendo archivo...
Extrayendo número de centrífuga...
Añadiendo columna 'Num_centrífuga'...
Eliminando 'XXXXX_' de los nombres de las columnas...
Reordenando columnas...
Renombrando columnas...
Añadiendo dataframe a la lista...
Concatenando dataframes...
Guardando archivo Excel...


In [4]:
#Tipo de dato de cada columna
print("Tipo de dato de cada columna:")
print(df_total.dtypes)


Tipo de dato de cada columna:
DateTime                  object
EN_parcial               float64
EN_total                 float64
Apertura valvula agua    float64
Caudal                   float64
Contrapresion            float64
Presion agua             float64
Velocidad separacion     float64
Num_centrifuga           float64
dtype: object
