Lo primero que hacemos es cargar todos las hojas a utilizar para posteriormente concatenarlos

In [530]:
import pandas as pd
from pathlib import Path

# --- Configuración ---
# La ruta DEBE apuntar al ARCHIVO EXCEL (.xlsx)
ruta_archivo = Path(r'C:\Users\scalz\Documents\Documentos\Lab_Datos\TPfinal\Archivos_xlsx\Planta_2020_2021.xlsx')
# El nombre exacto de tu columna de fecha (cambiado a 'DIA' por tu output)
columna_fecha_filtro = 'DIA'           
# La fecha en la que quieres cortar (esta fecha NO se incluirá)
fecha_limite_str = '1/7/2021'   
# ---------------------

try:
    # 1. Cargar TODAS las hojas del archivo Excel
    dict_de_hojas = pd.read_excel(ruta_archivo, sheet_name=None)
    
    nombres_hojas = list(dict_de_hojas.keys())
    print(f"Hojas encontradas y cargadas: {nombres_hojas}")
    
    # Preparamos los DataFrames asegurando que el índice esté alineado
    # Esto es crucial para la unión horizontal y para prevenir el error "cannot assemble".
    dataframes_a_combinar = []
    for nombre, df in dict_de_hojas.items():
        # Reiniciar el índice asegura que todos los DF se unan correctamente.
        # Si el índice no es único o idéntico en todos, axis=1 fallará o dará resultados erróneos.
        df_reset = df.reset_index(drop=True) 
        dataframes_a_combinar.append(df_reset)

    # 2. COMBINAR HORIZONTALMENTE (Por Columnas)
    # axis=1 une por el índice (que ahora está alineado).
    df_combinado_con_duplicados = pd.concat(dataframes_a_combinar, axis=1)
    
    print(f"\nTotal de filas en el DF combinado (antes de filtrar): {len(df_combinado_con_duplicados)}")
    
    # 3. ELIMINAR COLUMNAS DUPLICADAS (¡Paso clave!)
    # Esto usa una máscara booleana para seleccionar solo las columnas que NO están duplicadas.
    # El operador '~' invierte la selección, y Pandas solo selecciona la primera aparición.
    columnas_duplicadas = df_combinado_con_duplicados.columns.duplicated()
    df_combinado = df_combinado_con_duplicados.loc[:, ~columnas_duplicadas]

    columnas_eliminadas = columnas_duplicadas.sum()
    print(f"Columnas duplicadas eliminadas: {columnas_eliminadas}")
    print(f"Total de columnas finales (sin duplicados): {df_combinado.shape[1]}")

    # 4. Filtrado por Fecha (Columna 'DIA')
    
    if columna_fecha_filtro not in df_combinado.columns:
        print(f"Error: La columna de fecha '{columna_fecha_filtro}' no se encuentra en el DF final.")
        print(f"Columnas disponibles: {df_combinado.columns.tolist()}")
    else:
        # Convertir la columna de fecha a formato datetime
        df_combinado[columna_fecha_filtro] = pd.to_datetime(df_combinado[columna_fecha_filtro], errors='coerce')

        # Convertir la fecha límite
        fecha_limite = pd.to_datetime(fecha_limite_str)

        # Filtrar el DataFrame: todas las filas con fecha anterior a la fecha límite
        df_filtrado = df_combinado[df_combinado[columna_fecha_filtro] > fecha_limite].copy()

        # 5. Mostrar Resultados
        print(f"\nFecha de corte (exclusiva): {fecha_limite_str}")
        print(f"Total de filas filtradas: {len(df_filtrado)}")
        
        print("\n--- Primeras filas del DataFrame filtrado (sin columnas duplicadas) ---")
        print(df_filtrado.head())

except FileNotFoundError:
    print(f"Error: No se pudo encontrar el archivo en la ruta: {ruta_archivo}")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Hojas encontradas y cargadas: ['Consolidado KPI', 'Consolidado Produccion', 'Consolidado EE', 'Consolidado Agua', 'Consolidado GasVapor', 'Consolidado Aire']

Total de filas en el DF combinado (antes de filtrar): 16035
Columnas duplicadas eliminadas: 10
Total de columnas finales (sin duplicados): 127

Fecha de corte (exclusiva): 1/7/2021
Total de filas filtradas: 10875

--- Primeras filas del DataFrame filtrado (sin columnas duplicadas) ---
            DIA      HORA  EE Planta / Hl  EE Elaboracion / Hl  \
4698 2021-01-08  00:00:00        0.000000             0.000000   
4699 2021-01-08  01:00:00       19.533641             2.230769   
4700 2021-01-08  02:00:00       23.720311             2.760870   
4701 2021-01-08  03:00:00       25.616236             2.920635   
4702 2021-01-08  04:00:00       25.453799             2.806644   

      EE Bodega / Hl  EE Cocina / Hl  EE Envasado / Hl  EE Linea 2 / Hl  \
4698        0.000000             0.0          0.000000         0.000000   
4699    

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_combinado[columna_fecha_filtro] = pd.to_datetime(df_combinado[columna_fecha_filtro], errors='coerce')


In [531]:
df1=df_filtrado.copy()

In [532]:
import pandas as pd
from pathlib import Path

# --- Configuración ---
# La ruta DEBE apuntar al ARCHIVO EXCEL (.xlsx)
ruta_archivo = Path(r'C:\Users\scalz\Documents\Documentos\Lab_Datos\TPfinal\Archivos_xlsx\Planta_2021_2022.xlsx')
# El nombre exacto de tu columna de fecha (cambiado a 'DIA' por tu output)
columna_fecha_filtro = 'DIA'           
# La fecha en la que quieres cortar (esta fecha NO se incluirá)
fecha_limite_str = '7/3/2023'   
# ---------------------

try:
    # 1. Cargar TODAS las hojas del archivo Excel
    dict_de_hojas = pd.read_excel(ruta_archivo, sheet_name=None)
    
    nombres_hojas = list(dict_de_hojas.keys())
    print(f"Hojas encontradas y cargadas: {nombres_hojas}")
    
    # Preparamos los DataFrames asegurando que el índice esté alineado
    # Esto es crucial para la unión horizontal y para prevenir el error "cannot assemble".
    dataframes_a_combinar = []
    for nombre, df in dict_de_hojas.items():
        # Reiniciar el índice asegura que todos los DF se unan correctamente.
        # Si el índice no es único o idéntico en todos, axis=1 fallará o dará resultados erróneos.
        df_reset = df.reset_index(drop=True) 
        dataframes_a_combinar.append(df_reset)

    # 2. COMBINAR HORIZONTALMENTE (Por Columnas)
    # axis=1 une por el índice (que ahora está alineado).
    df_combinado_con_duplicados = pd.concat(dataframes_a_combinar, axis=1)
    
    print(f"\nTotal de filas en el DF combinado (antes de filtrar): {len(df_combinado_con_duplicados)}")
    
    # 3. ELIMINAR COLUMNAS DUPLICADAS (¡Paso clave!)
    # Esto usa una máscara booleana para seleccionar solo las columnas que NO están duplicadas.
    # El operador '~' invierte la selección, y Pandas solo selecciona la primera aparición.
    columnas_duplicadas = df_combinado_con_duplicados.columns.duplicated()
    df_combinado = df_combinado_con_duplicados.loc[:, ~columnas_duplicadas]

    columnas_eliminadas = columnas_duplicadas.sum()
    print(f"Columnas duplicadas eliminadas: {columnas_eliminadas}")
    print(f"Total de columnas finales (sin duplicados): {df_combinado.shape[1]}")

    # 4. Filtrado por Fecha (Columna 'DIA')
    
    if columna_fecha_filtro not in df_combinado.columns:
        print(f"Error: La columna de fecha '{columna_fecha_filtro}' no se encuentra en el DF final.")
        print(f"Columnas disponibles: {df_combinado.columns.tolist()}")
    else:
        # Convertir la columna de fecha a formato datetime
        df_combinado[columna_fecha_filtro] = pd.to_datetime(df_combinado[columna_fecha_filtro], errors='coerce')

        # Convertir la fecha límite
        fecha_limite = pd.to_datetime(fecha_limite_str)

        # Filtrar el DataFrame: todas las filas con fecha anterior a la fecha límite
        df_filtrado = df_combinado[df_combinado[columna_fecha_filtro] < fecha_limite].copy()

        # 5. Mostrar Resultados
        print(f"\nFecha de corte (exclusiva): {fecha_limite_str}")
        print(f"Total de filas filtradas: {len(df_filtrado)}")
        
        print("\n--- Primeras filas del DataFrame filtrado (sin columnas duplicadas) ---")
        print(df_filtrado.head())

except FileNotFoundError:
    print(f"Error: No se pudo encontrar el archivo en la ruta: {ruta_archivo}")
except Exception as e:
    print(f"Ocurrió un error inesperado: {e}")

Hojas encontradas y cargadas: ['Consolidado KPI', 'Consolidado Produccion', 'Consolidado EE', 'Consolidado Agua', 'Consolidado GasVapor', 'Consolidado Aire']

Total de filas en el DF combinado (antes de filtrar): 15451
Columnas duplicadas eliminadas: 10
Total de columnas finales (sin duplicados): 127

Fecha de corte (exclusiva): 7/3/2023
Total de filas filtradas: 15316

--- Primeras filas del DataFrame filtrado (sin columnas duplicadas) ---
         DIA      HORA  EE Planta / Hl  EE Elaboracion / Hl  EE Bodega / Hl  \
0 2021-07-01  02:00:00        0.207674             0.006979        0.015400   
1 2021-07-01  03:00:00        0.419615             0.014110        0.030876   
2 2021-07-01  04:00:00        0.625781             0.021393        0.046428   
3 2021-07-01  05:00:01        0.822242             0.027690        0.060917   
4 2021-07-01  06:00:01        1.012486             0.034593        0.075711   

   EE Cocina / Hl  EE Envasado / Hl  EE Linea 2 / Hl  EE Linea 3 / Hl  \
0      

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_combinado[columna_fecha_filtro] = pd.to_datetime(df_combinado[columna_fecha_filtro], errors='coerce')


In [533]:
df_filtrado

Unnamed: 0,DIA,HORA,EE Planta / Hl,EE Elaboracion / Hl,EE Bodega / Hl,EE Cocina / Hl,EE Envasado / Hl,EE Linea 2 / Hl,EE Linea 3 / Hl,EE Linea 4 / Hl,...,Aire Elaboracion (m3),Aire Envasado (M3),Aire Servicios (M3),Tot Aire Expulsion,Totalizador_Aire_Bodega,Totalizador_Aire_Cocina,Totalizador_Aire_L2,Totalizador_Aire_L3,Totaliador_Aire_L4,Totalizador_Aire_L5
0,2021-07-01,02:00:00,0.207674,0.006979,0.015400,0.002115,0.001821,0.013610,0.013274,0.000000,...,22361.05,16687.95,15468.00,0.0,17523.48,4837.57,6440.43,4903.54,3200.90,2143.08
1,2021-07-01,03:00:00,0.419615,0.014110,0.030876,0.003929,0.003945,0.027048,0.026549,0.000000,...,23053.16,16897.16,15698.68,0.0,18048.57,5004.59,6529.94,4950.46,3273.15,2143.61
2,2021-07-01,04:00:00,0.625781,0.021393,0.046428,0.006044,0.005766,0.040458,0.039191,0.000000,...,23759.91,17110.51,16011.58,0.0,18584.67,5175.24,6620.61,4997.80,3345.37,2146.73
3,2021-07-01,05:00:01,0.822242,0.027690,0.060917,0.007857,0.007586,0.053429,0.051833,0.000000,...,24463.00,17325.05,16326.95,0.0,19118.36,5344.64,6712.13,5045.33,3417.79,2149.80
4,2021-07-01,06:00:01,1.012486,0.034593,0.075711,0.009973,0.009407,0.066299,0.063843,0.000000,...,25172.39,17541.75,16641.86,0.0,19657.22,5515.17,6805.28,5093.20,3490.21,2153.06
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
15311,2023-03-06,04:00:00,9.109177,0.745027,0.754973,,2.921338,2.044022,1.637267,1.511088,...,3261.23,2910.84,1868.93,0.0,2772.28,488.95,804.26,1171.28,649.89,285.41
15312,2023-03-06,05:00:00,9.369963,0.775223,0.787834,,2.995549,2.012097,1.692070,1.565988,...,4049.19,3654.82,2328.99,0.0,3436.33,612.86,1026.05,1459.94,811.73,357.10
15313,2023-03-06,06:00:00,10.059082,0.838689,0.845246,,3.157377,1.982401,1.795203,1.699919,...,4837.50,4347.65,2797.85,0.0,4107.27,730.23,1228.60,1723.47,966.50,429.08
15314,2023-03-06,07:00:00,10.636871,0.886859,0.889806,,3.274013,2.148580,1.838525,1.743106,...,5634.48,5038.09,3268.43,0.0,4785.90,848.58,1439.42,1991.10,1105.85,501.72


In [534]:
df2=df_filtrado.copy()

In [535]:
vector_df=[df1,df2]
df_concatenado = pd.concat(vector_df, ignore_index=True)

In [536]:
df_concatenado

Unnamed: 0,DIA,HORA,EE Planta / Hl,EE Elaboracion / Hl,EE Bodega / Hl,EE Cocina / Hl,EE Envasado / Hl,EE Linea 2 / Hl,EE Linea 3 / Hl,EE Linea 4 / Hl,...,Aire Envasado (M3),Aire Servicios (M3),Tot Aire Expulsion,Totalizador_Aire_Bodega,Totalizador_Aire_Cocina,Totalizador_Aire_L2,Totalizador_Aire_L3,Totaliador_Aire_L4,Totalizador_Aire_L5,Vapor_L5 (KG)
0,2021-01-08,00:00:00,0.000000,0.000000,0.000000,0.0,0.000000,0.000000,0.000000,0.000000,...,0.00,0.00,0.0,0.00,0.00,0.00,0.00,0.00,0.00,
1,2021-01-08,01:00:00,19.533641,2.230769,2.251282,0.0,4.574359,1.958294,0.000000,0.000000,...,591.28,257.67,0.0,762.71,174.34,280.06,104.75,68.89,137.58,
2,2021-01-08,02:00:00,23.720311,2.760870,2.782609,0.0,5.503106,2.215825,0.000000,0.000000,...,1183.22,506.98,0.0,1538.85,350.95,557.60,211.34,139.43,274.85,
3,2021-01-08,03:00:00,25.616236,2.920635,2.956916,0.0,5.995465,2.354880,0.000000,0.000000,...,1771.24,753.48,0.0,2360.03,530.25,834.72,318.17,206.11,412.24,
4,2021-01-08,04:00:00,25.453799,2.806644,2.840716,0.0,5.996593,2.319520,0.000000,0.000000,...,2352.10,1002.62,0.0,3283.70,707.58,1115.97,422.85,263.80,549.48,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26186,2023-03-06,04:00:00,9.109177,0.745027,0.754973,,2.921338,2.044022,1.637267,1.511088,...,2910.84,1868.93,0.0,2772.28,488.95,804.26,1171.28,649.89,285.41,651.10
26187,2023-03-06,05:00:00,9.369963,0.775223,0.787834,,2.995549,2.012097,1.692070,1.565988,...,3654.82,2328.99,0.0,3436.33,612.86,1026.05,1459.94,811.73,357.10,815.18
26188,2023-03-06,06:00:00,10.059082,0.838689,0.845246,,3.157377,1.982401,1.795203,1.699919,...,4347.65,2797.85,0.0,4107.27,730.23,1228.60,1723.47,966.50,429.08,979.22
26189,2023-03-06,07:00:00,10.636871,0.886859,0.889806,,3.274013,2.148580,1.838525,1.743106,...,5038.09,3268.43,0.0,4785.90,848.58,1439.42,1991.10,1105.85,501.72,1142.04


In [537]:
analizar_corr=[
 'Agua Bodega / Hl', 'Agua Cocina / Hl', 'Agua Dilucion (Hl)', 'Agua Elab / Hl', 
 'Agua Envas / Hl', 'Agua Linea 2/Hl', 'Agua Linea 3/Hl', 'Agua Linea 4/Hl', 'Agua Planta / Hl', 'Agua Planta de Agua/Hl', 
 'Agua Servicios (Hl)', 'Agua Servicios/Hl', 'Aire Bodega / Hl', 
 'Aire Cocina / Hl', 'Aire Elaboracion (m3)', 'Aire Elaboracion / Hl', 
 'Aire Envasado (M3)', 'Aire Envasado / Hl', 'Aire L2 / Hl', 'Aire L3 / Hl', 
 'Aire L4 / Hl', 'Aire Planta / Hl', 'Aire Servicios (M3)', 
 'Aire Servicios / Hl', 'CO 2 / Hl', 'CO 2 Filtro / Hl', 'CO 2 Linea 4 / Hl', 
 'CO 2 linea 3 / Hl', 'Conversion Kg/Mj', 'EE Agua / Hl', 
 'EE Aire / Hl', 'EE CO2 / Hl', 'EE Caldera / Hl', 'EE Eflu / Hl', 
 'EE Linea 2 / Hl', 'EE Linea 3 / Hl', 'EE Linea 4 / Hl', 
 'EE Resto Planta / Hl', 'EE Resto Serv / Hl', 
 'EE Servicios / Hl', 'ET Bodega/Hl', 'ET Cocina/Hl', 'ET Elab/Hl', 
 'ET Elaboracion (Mj)', 'ET Envasado (Mj)', 'ET Envasado/Hl', 
 'ET Linea 2/Hl', 'ET Linea 3/Hl', 'ET Linea 4/Hl', 
 'ET Planta / Hl', 'ET Servicios (Mj)', 'ET Servicios / Hl', 
 'FC Barriles', 'FC L1 y L2', 'FC Lavadora L2', 'FC Lavadora L3', 
 'Produccion Agua / Hl', 'Red L1 y L2', 'Red L3', 'Red Paste L4',
 'Tot Aire Expulsion', 'Tot_Vapor_CIP_Bodega', 'Tot_Vapor_L3_L4', 
 'Totaliador_Aire_L4', 'Totalizador_Aire_Bodega', 'Totalizador_Aire_Cocina', 
 'Totalizador_Aire_L2', 'Totalizador_Aire_L3', 'Totalizador_Aire_L5', 
 'VAPOR DE LINEA 1 Y 2 KG', 'VAPOR DE LINEA 4 KG', 'Vapor L3', 
 'Vapor Servicio (Kg)'
]

In [538]:
#Aca lo que hago es eliminar los null en cualquiera de las dos columnas a modo de pruea para solamente ver
#que tan correlacionada estan las columnas que quiero borrar (muchos null) y la objetivo
import numpy as np
import pandas as pd

# Tu bucle original con la modificación
for i in analizar_corr:
    # Crear un DataFrame temporal con solo las dos columnas
    temp_df = df_concatenado[['Frio (Kw)', i]].copy()

    # **Eliminar las filas donde haya algún NaN en estas dos columnas**
    temp_df_cleaned = temp_df.dropna()
    
    # Comprobar si aún quedan datos para correlacionar
    if len(temp_df_cleaned) > 1: 
        # Calcular la correlación en los datos limpios
        correlacion = np.corrcoef(temp_df_cleaned['Frio (Kw)'], temp_df_cleaned[i])
        print(f"Correlación entre 'Frio (Kw)' y '{i}':")
      
        print(correlacion)
    else:
        print(f"No hay suficientes datos válidos (después de eliminar NaN) para calcular la correlación entre 'Frio (Kw)' y '{i}'.")
correlacion.sort()

Correlación entre 'Frio (Kw)' y 'Agua Bodega / Hl':
[[ 1.00000000e+00 -4.02958183e-04]
 [-4.02958183e-04  1.00000000e+00]]
Correlación entre 'Frio (Kw)' y 'Agua Cocina / Hl':
[[ 1.00000000e+00 -3.15500041e-04]
 [-3.15500041e-04  1.00000000e+00]]
Correlación entre 'Frio (Kw)' y 'Agua Dilucion (Hl)':
[[1.         0.00726009]
 [0.00726009 1.        ]]
Correlación entre 'Frio (Kw)' y 'Agua Elab / Hl':
[[ 1.00000000e+00 -3.67567228e-04]
 [-3.67567228e-04  1.00000000e+00]]
Correlación entre 'Frio (Kw)' y 'Agua Envas / Hl':
[[ 1.00000000e+00 -6.86833679e-04]
 [-6.86833679e-04  1.00000000e+00]]
Correlación entre 'Frio (Kw)' y 'Agua Linea 2/Hl':
[[ 1.         -0.00148586]
 [-0.00148586  1.        ]]
Correlación entre 'Frio (Kw)' y 'Agua Linea 3/Hl':
[[ 1.00000000e+00 -2.50256643e-04]
 [-2.50256643e-04  1.00000000e+00]]
Correlación entre 'Frio (Kw)' y 'Agua Linea 4/Hl':
[[ 1.00000000e+00 -4.69748414e-04]
 [-4.69748414e-04  1.00000000e+00]]
Correlación entre 'Frio (Kw)' y 'Agua Planta / Hl':
[[ 1

In [539]:
df_concatenado=df_concatenado.drop(analizar_corr,axis=1)

In [540]:
df_concatenado

Unnamed: 0,DIA,HORA,EE Planta / Hl,EE Elaboracion / Hl,EE Bodega / Hl,EE Cocina / Hl,EE Envasado / Hl,EE Sala Maq / Hl,EE Frio / Hl,Agua Linea 5/Hl,...,Planta de agua (Hl),Produccion (Hl),Gas Planta (Mj),Vapor Elaboracion (Kg),Vapor Cocina (Kg),Vapor Envasado (Kg),Vapor _Vapor_L5 (KG),Aire Producido (M3),Aire Planta (M3),Vapor_L5 (KG)
0,2021-01-08,00:00:00,0.000000,0.000000,0.000000,0.0,0.000000,0.000000,0.000000,0.00,...,0.00,0.0,0.000000,0.00,0.0,0.00,0.00,0.0,0.00,
1,2021-01-08,01:00:00,19.533641,2.230769,2.251282,0.0,4.574359,7.117949,6.615385,0.24,...,1108.71,773.9,15225.980024,1077.40,40.0,1526.65,215.49,1786.0,1528.33,
2,2021-01-08,02:00:00,23.720311,2.760870,2.782609,0.0,5.503106,8.720497,8.111801,0.52,...,2225.42,1492.7,34078.285324,2644.61,80.0,3028.68,422.35,3580.0,3073.02,
3,2021-01-08,03:00:00,25.616236,2.920635,2.956916,0.0,5.995465,9.292517,8.653061,0.68,...,3205.43,1986.6,49004.177552,3733.45,130.0,4563.04,626.48,5415.0,4661.52,
4,2021-01-08,04:00:00,25.453799,2.806644,2.840716,0.0,5.996593,9.240204,8.609881,1.00,...,3896.84,2481.5,64052.205000,4606.16,170.0,5997.74,833.20,7346.0,6343.38,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26186,2023-03-06,04:00:00,9.109177,0.745027,0.754973,,2.921338,2.813743,2.771248,,...,4571.10,2841.8,87829.550976,3026.38,20.0,16973.38,,8041.0,6172.07,651.10
26187,2023-03-06,05:00:00,9.369963,0.775223,0.787834,,2.995549,2.895401,2.852374,,...,6097.20,3491.4,109613.534224,3781.25,20.0,20895.84,,10033.0,7704.01,815.18
26188,2023-03-06,06:00:00,10.059082,0.838689,0.845246,,3.157377,3.196721,3.154754,,...,7038.50,4231.8,129929.660576,4455.37,30.0,24279.50,,11983.0,9185.15,979.22
26189,2023-03-06,07:00:00,10.636871,0.886859,0.889806,,3.274013,3.457867,3.416618,,...,8677.90,4793.3,148959.674624,5006.74,30.0,27514.76,,13941.0,10672.57,1142.04


Ahora lo que quiero hacer es unificar las mediciones de cada dia en una unica medicion por dia, y hago esto ya que los datos son acumulativos por dia

In [541]:
df_concatenado.columns

Index(['DIA', 'HORA', 'EE Planta / Hl', 'EE Elaboracion / Hl',
       'EE Bodega / Hl', 'EE Cocina / Hl', 'EE Envasado / Hl',
       'EE Sala Maq / Hl', 'EE Frio / Hl', 'Agua Linea 5/Hl', 'ET Linea 5/Hl',
       'Aire L5 / Hl', 'Hl de Mosto', 'Hl Cerveza Cocina',
       'Hl Producido Bodega', 'Hl Cerveza Filtrada', 'Hl Cerveza Envasada',
       'Hl Cerveza L2', 'Hl Cerveza L3', 'Hl Cerveza L4', 'Hl Cerveza L5',
       'Planta (Kw)', 'Elaboracion (Kw)', 'Bodega (Kw)', 'Cocina (Kw)',
       'Envasado (Kw)', 'Linea 2 (Kw)', 'Linea 3 (Kw)', 'Linea 4 (Kw)',
       'Servicios (Kw)', 'Sala Maq (Kw)', 'Aire (Kw)', 'Calderas (Kw)',
       'Efluentes (Kw)', 'Frio (Kw)', 'Pta Agua / Eflu (Kw)', 'Prod Agua (Kw)',
       'Resto Serv (Kw)', 'Restos Planta (Kw)', 'KW Gral Planta',
       'Agua Planta (Hl)', 'Agua Elaboracion (Hl)', 'Agua Bodega (Hl)',
       'Agua Cocina (Hl)', 'Agua Envasado (Hl)', 'Planta de agua (Hl)',
       'Produccion (Hl)', 'Gas Planta (Mj)', 'Vapor Elaboracion (Kg)',
       '

In [542]:
import pandas as pd

# --- PASO 1: Crear la columna de Fecha y Hora (Datetime) ---
# Combina 'DIA' y 'HORA' en un solo objeto datetime para una ordenación precisa.
df_concatenado['FECHA_HORA'] = pd.to_datetime(
    df_concatenado['DIA'].astype(str) + ' ' + df_concatenado['HORA'].astype(str)
)

# --- PASO 2: Encontrar el Índice de la Última Medición de Cada Día ---
# Agrupa por la fecha (la parte de día de 'FECHA_HORA') y encuentra la hora máxima (idxmax) para esa fecha.
indices_ultima_medicion = df_concatenado.groupby(
    df_concatenado['FECHA_HORA'].dt.date
)['FECHA_HORA'].idxmax()

# --- PASO 3: Filtrar el DataFrame Original ---
# Selecciona solo las filas correspondientes a los índices de la última medición.
df_final = df_concatenado.loc[indices_ultima_medicion]



# Muestra el resultado
print("✅ Proceso completado. El DataFrame final está listo.")
print(df_final.head())
print(f"Dimensiones del DataFrame final: {df_final.shape}")

✅ Proceso completado. El DataFrame final está listo.
           DIA      HORA  EE Planta / Hl  EE Elaboracion / Hl  EE Bodega / Hl  \
24  2021-01-08  23:59:00       19.436895             1.517701        1.532965   
49  2021-01-09  23:59:00       10.563807             1.088183        0.929438   
74  2021-01-10  23:59:00        6.212877             0.826447        0.499318   
99  2021-01-11  23:59:00        6.757927             0.881324        0.548051   
124 2021-01-12  23:59:00        5.895972             0.497616        0.376044   

     EE Cocina / Hl  EE Envasado / Hl  EE Sala Maq / Hl  EE Frio / Hl  \
24         0.000000          5.907762          4.365703      3.623254   
49         0.598398          2.348914          4.685433      3.677750   
74         0.425277          1.451564          2.673659      1.868687   
99         0.349826          1.458469          3.210293      2.380272   
124        0.294197          1.668875          2.661445      2.137769   

     Agua Linea 5/Hl 

In [543]:
df_final

Unnamed: 0,DIA,HORA,EE Planta / Hl,EE Elaboracion / Hl,EE Bodega / Hl,EE Cocina / Hl,EE Envasado / Hl,EE Sala Maq / Hl,EE Frio / Hl,Agua Linea 5/Hl,...,Produccion (Hl),Gas Planta (Mj),Vapor Elaboracion (Kg),Vapor Cocina (Kg),Vapor Envasado (Kg),Vapor _Vapor_L5 (KG),Aire Producido (M3),Aire Planta (M3),Vapor_L5 (KG),FECHA_HORA
24,2021-01-08,23:59:00,19.436895,1.517701,1.532965,0.000000,5.907762,4.365703,3.623254,0.995050,...,13238.8,363491.062600,17946.67,770.0,66811.25,5104.48,40423.0,34117.32,,2021-01-08 23:59:00
49,2021-01-09,23:59:00,10.563807,1.088183,0.929438,0.598398,2.348914,4.685433,3.677750,1.668750,...,18926.0,421350.039900,51555.05,30150.0,110471.85,4482.47,36482.0,30846.62,,2021-01-09 23:59:00
74,2021-01-10,23:59:00,6.212877,0.826447,0.499318,0.425277,1.451564,2.673659,1.868687,0.000000,...,17553.7,442857.013800,105258.16,85600.0,76267.84,1666.24,35287.0,30831.91,,2021-01-10 23:59:00
99,2021-01-11,23:59:00,6.757927,0.881324,0.548051,0.349826,1.458469,3.210293,2.380272,0.000000,...,16686.5,402698.834300,87592.72,72040.0,66613.00,709.40,37340.0,33024.56,,2021-01-11 23:59:00
124,2021-01-12,23:59:00,5.895972,0.497616,0.376044,0.294197,1.668875,2.661445,2.137769,0.000000,...,18447.9,504394.277376,61333.58,43300.0,138024.38,2019.54,41169.0,35162.34,,2021-01-12 23:59:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26106,2023-03-02,23:59:00,9.307652,1.326883,1.062212,0.323571,1.221995,4.049660,3.696766,,...,23311.5,520730.573952,94099.88,74360.0,45374.07,,46734.0,28308.05,3814.44,2023-03-02 23:59:00
26131,2023-03-03,23:59:00,10.349507,1.383240,1.289095,0.360673,0.524170,5.171581,5.037719,,...,10050.3,294138.158224,47088.59,34610.0,17512.84,,27958.0,17607.70,4529.47,2023-03-03 23:59:00
26156,2023-03-04,23:59:00,5.403903,0.556676,0.351268,0.344653,1.502742,1.924659,1.779488,1.924324,...,27736.2,785335.062224,95852.94,80780.0,115864.40,,56101.0,35510.51,4119.21,2023-03-04 23:59:00
26181,2023-03-05,23:59:00,6.855836,0.732698,0.603488,0.317035,1.952473,2.424211,2.263206,1.138554,...,25159.8,711768.465424,78208.16,60680.0,109159.53,,55632.0,35982.52,4477.34,2023-03-05 23:59:00


A partir de esto comienzo con el EDA. 

Lo primero que hago es detrectar valores faltantes


In [544]:
null_counts=df_final.isnull().sum().sort_values()

In [545]:
columnas_con_muchos_nulos = null_counts[null_counts > 200].index.tolist()

In [546]:
columnas_con_muchos_nulos

['Agua Linea 5/Hl',
 'ET Linea 5/Hl',
 'Aire L5 / Hl',
 'Vapor _Vapor_L5 (KG)',
 'Vapor_L5 (KG)']

In [547]:
#Aca lo que hago es eliminar los null en cualquiera de las dos columnas a modo de pruea para solamente ver
#que tan correlacionada estan las columnas que quiero borrar (muchos null) y la objetivo
import numpy as np
import pandas as pd

# Tu bucle original con la modificación
for i in columnas_con_muchos_nulos:
    # Crear un DataFrame temporal con solo las dos columnas
    temp_df = df_concatenado[['Frio (Kw)', i]].copy()

    # **Eliminar las filas donde haya algún NaN en estas dos columnas**
    temp_df_cleaned = temp_df.dropna()
    
    # Comprobar si aún quedan datos para correlacionar
    if len(temp_df_cleaned) > 1: 
        # Calcular la correlación en los datos limpios
        correlacion = np.corrcoef(temp_df_cleaned['Frio (Kw)'], temp_df_cleaned[i])
        print(f"Correlación entre 'Frio (Kw)' y '{i}':")
        print(correlacion)
    else:
        print(f"No hay suficientes datos válidos (después de eliminar NaN) para calcular la correlación entre 'Frio (Kw)' y '{i}'.")

Correlación entre 'Frio (Kw)' y 'Agua Linea 5/Hl':
[[ 1.         -0.00130745]
 [-0.00130745  1.        ]]
Correlación entre 'Frio (Kw)' y 'ET Linea 5/Hl':
[[ 1.         -0.00134042]
 [-0.00134042  1.        ]]
Correlación entre 'Frio (Kw)' y 'Aire L5 / Hl':
[[ 1.         -0.00118821]
 [-0.00118821  1.        ]]
Correlación entre 'Frio (Kw)' y 'Vapor _Vapor_L5 (KG)':
[[1.         0.00431775]
 [0.00431775 1.        ]]
Correlación entre 'Frio (Kw)' y 'Vapor_L5 (KG)':
[[1.         0.25125967]
 [0.25125967 1.        ]]


Viendo que no estan muy correlacionadas con la variable objetivo, elimino las columnas EXCEPTO EE Frio / Hl

In [548]:
#columnas_con_muchos_nulos.remove('EE Frio / Hl')

In [549]:
for i in columnas_con_muchos_nulos: 
    df_concatenado=df_concatenado.drop(i,axis=1)

In [550]:
df_concatenado

Unnamed: 0,DIA,HORA,EE Planta / Hl,EE Elaboracion / Hl,EE Bodega / Hl,EE Cocina / Hl,EE Envasado / Hl,EE Sala Maq / Hl,EE Frio / Hl,Hl de Mosto,...,Agua Envasado (Hl),Planta de agua (Hl),Produccion (Hl),Gas Planta (Mj),Vapor Elaboracion (Kg),Vapor Cocina (Kg),Vapor Envasado (Kg),Aire Producido (M3),Aire Planta (M3),FECHA_HORA
0,2021-01-08,00:00:00,0.000000,0.000000,0.000000,0.0,0.000000,0.000000,0.000000,0.0,...,0.0,0.00,0.0,0.000000,0.00,0.0,0.00,0.0,0.00,2021-01-08 00:00:00
1,2021-01-08,01:00:00,19.533641,2.230769,2.251282,0.0,4.574359,7.117949,6.615385,0.0,...,411.0,1108.71,773.9,15225.980024,1077.40,40.0,1526.65,1786.0,1528.33,2021-01-08 01:00:00
2,2021-01-08,02:00:00,23.720311,2.760870,2.782609,0.0,5.503106,8.720497,8.111801,0.0,...,665.9,2225.42,1492.7,34078.285324,2644.61,80.0,3028.68,3580.0,3073.02,2021-01-08 02:00:00
3,2021-01-08,03:00:00,25.616236,2.920635,2.956916,0.0,5.995465,9.292517,8.653061,0.0,...,856.9,3205.43,1986.6,49004.177552,3733.45,130.0,4563.04,5415.0,4661.52,2021-01-08 03:00:00
4,2021-01-08,04:00:00,25.453799,2.806644,2.840716,0.0,5.996593,9.240204,8.609881,0.0,...,1061.9,3896.84,2481.5,64052.205000,4606.16,170.0,5997.74,7346.0,6343.38,2021-01-08 04:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26186,2023-03-06,04:00:00,9.109177,0.745027,0.754973,,2.921338,2.813743,2.771248,0.0,...,1003.8,4571.10,2841.8,87829.550976,3026.38,20.0,16973.38,8041.0,6172.07,2023-03-06 04:00:00
26187,2023-03-06,05:00:00,9.369963,0.775223,0.787834,,2.995549,2.895401,2.852374,0.0,...,1258.4,6097.20,3491.4,109613.534224,3781.25,20.0,20895.84,10033.0,7704.01,2023-03-06 05:00:00
26188,2023-03-06,06:00:00,10.059082,0.838689,0.845246,,3.157377,3.196721,3.154754,0.0,...,1596.8,7038.50,4231.8,129929.660576,4455.37,30.0,24279.50,11983.0,9185.15,2023-03-06 06:00:00
26189,2023-03-06,07:00:00,10.636871,0.886859,0.889806,,3.274013,3.457867,3.416618,0.0,...,1860.3,8677.90,4793.3,148959.674624,5006.74,30.0,27514.76,13941.0,10672.57,2023-03-06 07:00:00


Ahora separo el conjunto de datos en train y test. 

In [551]:
df_final.dtypes

DIA                       datetime64[ns]
HORA                              object
EE Planta / Hl                   float64
EE Elaboracion / Hl              float64
EE Bodega / Hl                   float64
EE Cocina / Hl                   float64
EE Envasado / Hl                 float64
EE Sala Maq / Hl                 float64
EE Frio / Hl                     float64
Agua Linea 5/Hl                  float64
ET Linea 5/Hl                    float64
Aire L5 / Hl                     float64
Hl de Mosto                      float64
Hl Cerveza Cocina                float64
Hl Producido Bodega              float64
Hl Cerveza Filtrada              float64
Hl Cerveza Envasada              float64
Hl Cerveza L2                    float64
Hl Cerveza L3                    float64
Hl Cerveza L4                    float64
Hl Cerveza L5                    float64
Planta (Kw)                      float64
Elaboracion (Kw)                 float64
Bodega (Kw)                      float64
Cocina (Kw)     

In [552]:
from sklearn.preprocessing import StandardScaler

In [553]:
df_final['FECHA_HORA'] = pd.to_datetime(df_final['FECHA_HORA'])
df_final = df_final.drop(columns=['DIA', 'HORA'])

In [554]:
# --- 2. Extraer Características (¡sin la hora!) ---

# 'año' es una tendencia, no un ciclo
df_final['año'] = df_final['FECHA_HORA'].dt.year

# Características cíclicas
df_final['mes'] = df_final['FECHA_HORA'].dt.month
df_final['dia_semana'] = df_final['FECHA_HORA'].dt.dayofweek  # 0=Lunes, 6=Domingo

# --- 3. Transformar Cíclicas (Seno/Coseno) ---

# Mes (1-12)
df_final['mes_sin'] = np.sin(2 * np.pi * df_final['mes'] / 12)
df_final['mes_cos'] = np.cos(2 * np.pi * df_final['mes'] / 12)

# Día de la semana (0-6)
df_final['dia_semana_sin'] = np.sin(2 * np.pi * df_final['dia_semana'] / 7)
df_final['dia_semana_cos'] = np.cos(2 * np.pi * df_final['dia_semana'] / 7)

# --- 4. Limpieza Final ---
# Eliminamos la columna original y las intermedias
columnas_a_eliminar = ['FECHA_HORA', 'mes', 'dia_semana']
df_final = df_final.drop(columns=columnas_a_eliminar)

print("DataFrame 100% numérico y listo para escalar:")
print(df_final.head())

DataFrame 100% numérico y listo para escalar:
     EE Planta / Hl  EE Elaboracion / Hl  EE Bodega / Hl  EE Cocina / Hl  \
24        19.436895             1.517701        1.532965        0.000000   
49        10.563807             1.088183        0.929438        0.598398   
74         6.212877             0.826447        0.499318        0.425277   
99         6.757927             0.881324        0.548051        0.349826   
124        5.895972             0.497616        0.376044        0.294197   

     EE Envasado / Hl  EE Sala Maq / Hl  EE Frio / Hl  Agua Linea 5/Hl  \
24           5.907762          4.365703      3.623254          0.99505   
49           2.348914          4.685433      3.677750          1.66875   
74           1.451564          2.673659      1.868687          0.00000   
99           1.458469          3.210293      2.380272          0.00000   
124          1.668875          2.661445      2.137769          0.00000   

     ET Linea 5/Hl  Aire L5 / Hl  ...  Vapor Envasad

In [555]:
df_final

Unnamed: 0,EE Planta / Hl,EE Elaboracion / Hl,EE Bodega / Hl,EE Cocina / Hl,EE Envasado / Hl,EE Sala Maq / Hl,EE Frio / Hl,Agua Linea 5/Hl,ET Linea 5/Hl,Aire L5 / Hl,...,Vapor Envasado (Kg),Vapor _Vapor_L5 (KG),Aire Producido (M3),Aire Planta (M3),Vapor_L5 (KG),año,mes_sin,mes_cos,dia_semana_sin,dia_semana_cos
24,19.436895,1.517701,1.532965,0.000000,5.907762,4.365703,3.623254,0.995050,25.269703,12.913020,...,66811.25,5104.48,40423.0,34117.32,,2021,0.5,8.660254e-01,-0.433884,-0.900969
49,10.563807,1.088183,0.929438,0.598398,2.348914,4.685433,3.677750,1.668750,28.015438,9.899750,...,110471.85,4482.47,36482.0,30846.62,,2021,0.5,8.660254e-01,-0.974928,-0.222521
74,6.212877,0.826447,0.499318,0.425277,1.451564,2.673659,1.868687,0.000000,0.000000,0.000000,...,76267.84,1666.24,35287.0,30831.91,,2021,0.5,8.660254e-01,-0.781831,0.623490
99,6.757927,0.881324,0.548051,0.349826,1.458469,3.210293,2.380272,0.000000,0.000000,0.000000,...,66613.00,709.40,37340.0,33024.56,,2021,0.5,8.660254e-01,0.000000,1.000000
124,5.895972,0.497616,0.376044,0.294197,1.668875,2.661445,2.137769,0.000000,0.000000,0.000000,...,138024.38,2019.54,41169.0,35162.34,,2021,0.5,8.660254e-01,0.781831,0.623490
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26106,9.307652,1.326883,1.062212,0.323571,1.221995,4.049660,3.696766,,,,...,45374.07,,46734.0,28308.05,3814.44,2023,1.0,6.123234e-17,0.433884,-0.900969
26131,10.349507,1.383240,1.289095,0.360673,0.524170,5.171581,5.037719,,,,...,17512.84,,27958.0,17607.70,4529.47,2023,1.0,6.123234e-17,-0.433884,-0.900969
26156,5.403903,0.556676,0.351268,0.344653,1.502742,1.924659,1.779488,1.924324,22.266000,11.549459,...,115864.40,,56101.0,35510.51,4119.21,2023,1.0,6.123234e-17,-0.974928,-0.222521
26181,6.855836,0.732698,0.603488,0.317035,1.952473,2.424211,2.263206,1.138554,26.971928,15.299277,...,109159.53,,55632.0,35982.52,4477.34,2023,1.0,6.123234e-17,-0.781831,0.623490


In [556]:
# import sklearn as skl
# y=df_final['Frio (Kw)']
# x_train, x_val, y_train, y_val=skl.model_selection.train_test_split(df_final, y, test_size=0.2)

In [557]:
# scaler=StandardScaler()
# df_final=scaler.fit_transform(df_final)

In [558]:
# y_train=y_train.to_frame()


Ahora imputo los valores nulos con knn

In [559]:
# # 1. Instanciar el Imputer
# # ¡Importante! El Imputer solo debe ser ajustado (fit) en los datos de entrenamiento (X_train).
# imputer = skl.impute.KNNImputer(n_neighbors=10)

# # 2. Imputación y Retención de Columnas para X_train
# # Paso A: Aplicar fit_transform (devuelve una matriz numpy)
# x_train_imputed_array = imputer.fit_transform(x_train)

# # Paso B: Convertir de vuelta a DataFrame
# # Se usan los nombres de las columnas originales (x_train.columns)
# x_train = pd.DataFrame(
#     x_train_imputed_array,
#     columns=x_train.columns,
#     index=x_train.index # Opcional, pero recomendado para mantener el orden
# )

# # 3. Imputación y Retención de Columnas para X_val
# # ¡Importante! Usar SÓLO transform(), no fit_transform(), para aplicar las reglas aprendidas
# x_val_imputed_array = imputer.transform(x_val)

# # Convertir de vuelta a DataFrame
# x_val = pd.DataFrame(
#     x_val_imputed_array,
#     columns=x_val.columns,
#     index=x_val.index
# )

# # 4. Corrección para y_train y y_val
# # Si 'y' tiene valores nulos, generalmente se manejan eliminando las filas
# # o usando un SimpleImputer si es numérica, pero NUNCA con KNNImputer de esta forma.
# # Lo más probable es que y_train/y_val no necesiten imputación y deban mantenerse intactas.
# # Si y_train es una Serie:
# # y_train = y_train.fillna(y_train.mean()) 
# # (Ejemplo de imputación simple, si fuera necesario)

# print("✅ Los DataFrames x_train y x_val ahora contienen los datos imputados con los nombres de columna originales.")
# print(f"Columnas de x_train después de la imputación: {x_train.columns.tolist()}")

In [560]:
#imputer=skl.impute.KNNImputer(n_neighbors=10)
#x_train=imputer.fit_transform(x_train)
#y_train=imputer.fit_transform(y_train)
#x_val=imputer.fit_transform(x_val)
#y_val=imputer.fit_transform(y_val)


Ya normalizados y sin nulls ahora voy a usar LOF para encontrar outliers

In [561]:
# x_train=pd.DataFrame(x_train)
# x_train

In [562]:
# from sklearn.neighbors import LocalOutlierFactor

# clf = LocalOutlierFactor(n_neighbors=20, contamination=0.1)
# y_pred_lof = clf.fit_predict(x_train)


In [563]:
# x_train=pd.DataFrame(x_train)

In [564]:
# # 1. Contar cuántos outliers se detectaron
# n_outliers = list(y_pred_lof).count(-1)
# print(f"Total de Outliers detectados: {n_outliers}")

# # 2. Añadir la etiqueta al DataFrame original
# x_train['lof_label'] = y_pred_lof

# # 3. Filtrar los outliers para inspección
# outliers = x_train[x_train['lof_label'] == -1]
# print("\nEjemplo de Outliers detectados:")
# print(outliers.head())

In [565]:
# # Ejemplo de Winsorización (aplicado a una columna, ej: 'Frio (Kw)')
# for columna in x_train.columns:
#     p_lower = x_train[columna].quantile(0.01) # Percentil 1
#     p_upper = x_train[columna].quantile(0.99) # Percentil 99

#     # Limitar los valores de la columna
#     x_train.loc[:, columna] = np.where(x_train[columna] > p_upper, p_upper, x_train[columna])
#     x_train.loc[:, columna] = np.where(x_train[columna] < p_lower, p_lower, x_train[columna])

In [566]:
import pandas as pd
import io 

def descargar_dataframe_como_csv(df, nombre_archivo="datos_descargados.csv"):
    """
    Guarda un DataFrame de Pandas como un archivo CSV y 
    fuerza la descarga en el navegador si se ejecuta en Colab o Jupyter.
    """
    try:
        # 1. Guardar el archivo en el disco local del entorno
        df.to_csv(nombre_archivo, index=False, encoding='utf-8')
        print(f"✅ DataFrame guardado exitosamente como '{nombre_archivo}' en el entorno local.")

        # 2. Lógica para forzar la descarga al ordenador del usuario
        # ---
        


    except Exception as e:
        print(f"❌ Ocurrió un error al guardar o descargar el archivo: {e}")



In [567]:
df_final=pd.DataFrame(df_final)

In [568]:
descargar_dataframe_como_csv(df_final, "final.csv")


✅ DataFrame guardado exitosamente como 'final.csv' en el entorno local.


In [569]:
#descargar_dataframe_como_csv(y_train, "y_train.csv")

In [570]:
pepe

NameError: name 'pepe' is not defined

In [575]:
import pandas as pd
import os

def cargar_y_mostrar_csv(nombre_archivo):
    """
    Carga un archivo CSV en un DataFrame de Pandas y muestra su información clave.
    """
    
    # 1. Verificar si el archivo existe
    if not os.path.exists(nombre_archivo):
        print(f"❌ Error: El archivo '{nombre_archivo}' no se encontró en la carpeta actual.")
        print("Asegúrate de que el archivo y el script estén en el mismo directorio.")
        return

    print(f"Cargando archivo: {nombre_archivo}...")

    try:
        # 2. Cargar el archivo CSV en un DataFrame
        # Nota: La opción 'encoding' es útil para manejar caracteres especiales.
        df = pd.read_csv(nombre_archivo, encoding='utf-8')
        
        print(f"\n✅ Archivo '{nombre_archivo}' cargado exitosamente en el DataFrame.")
        print("--------------------------------------------------")
        
        # 3. Mostrar las primeras 5 filas (para verificar la carga)
        print("### Vista Previa (Primeras 5 Filas) ###")
        print(df.head())
        
        print("\n### Información del DataFrame (Tipos de Datos y Nulos) ###")
        # 4. Mostrar información de columnas, tipos de datos y valores nulos
        df.info()
        
        return df # Devolvemos el DataFrame para que puedas seguir trabajándolo
        
    except pd.errors.ParserError as e:
        print(f"\n❌ Error de formato CSV (ParserError): {e}")
        print("Revisa si el delimitador (coma, punto y coma, etc.) es el correcto.")
    except Exception as e:
        print(f"\n❌ Ocurrió un error inesperado al cargar el archivo: {e}")

# --- USO DEL CÓDIGO ---

# Nombre del archivo CSV que deseas cargar (¡Asegúrate que exista!)
ARCHIVO_A_CARGAR = "final.csv" # Cambia esto por el nombre de tu archivo

# Llamar a la función
dataframe_cargado = cargar_y_mostrar_csv(ARCHIVO_A_CARGAR)

# Si la carga fue exitosa, puedes seguir trabajando con el DataFrame
if dataframe_cargado is not None:
    print("\n--- ¡El DataFrame está listo para el análisis! ---")
    # Ejemplo: ¿Cuál es el promedio de una columna 'Edad'? (Descomenta para usar)
    # print(f"Promedio de Edad: {dataframe_cargado['Edad'].mean()}")

Cargando archivo: final.csv...

✅ Archivo 'final.csv' cargado exitosamente en el DataFrame.
--------------------------------------------------
### Vista Previa (Primeras 5 Filas) ###
   EE Planta / Hl  EE Elaboracion / Hl  EE Bodega / Hl  EE Cocina / Hl  \
0       19.436895             1.517701        1.532965        0.000000   
1       10.563807             1.088183        0.929438        0.598398   
2        6.212877             0.826447        0.499318        0.425277   
3        6.757927             0.881324        0.548051        0.349826   
4        5.895972             0.497616        0.376044        0.294197   

   EE Envasado / Hl  EE Sala Maq / Hl  EE Frio / Hl  Agua Linea 5/Hl  \
0          5.907762          4.365703      3.623254          0.99505   
1          2.348914          4.685433      3.677750          1.66875   
2          1.451564          2.673659      1.868687          0.00000   
3          1.458469          3.210293      2.380272          0.00000   
4          1

In [576]:
dataframe_cargado = dataframe_cargado.dropna(subset=['Frio (Kw)'])

In [574]:
import pandas as pd
from sklearn.impute import SimpleImputer
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.impute import KNNImputer # Usamos KNNImputer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import Lasso
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.base import BaseEstimator, TransformerMixin
from scipy.stats.mstats import winsorize
from sklearn.preprocessing import PowerTransformer

class Winsorizer(BaseEstimator, TransformerMixin):
    def __init__(self, limits=(0.05, 0.05)):
        self.limits = limits

    def fit(self, X, y=None):
        X_np = np.asarray(X)
        # Aprende los límites de percentil del conjunto de entrenamiento
        # Usamos nanpercentile por si KNNImputer no se ha ejecutado aún (aunque en tu pipeline sí)
        self.lower_limits_ = np.nanpercentile(X_np, self.limits[0] * 100, axis=0)
        self.upper_limits_ = np.nanpercentile(X_np, 100 - (self.limits[1] * 100), axis=0)
        return self

    def transform(self, X):
        X_np = np.asarray(X)
        # Aplica los límites aprendidos en fit() usando np.clip
        # np.clip "corta" cualquier valor fuera de los límites
        return np.clip(X_np, self.lower_limits_, self.upper_limits_)
    
y = dataframe_cargado['Frio (Kw)']
X = dataframe_cargado.drop('Frio (Kw)', axis=1)

# División de Datos
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42
)

# 3. Definición del Preprocesamiento MEJORADO
numerical_features = X.select_dtypes(include=np.number).columns.tolist()
categorical_features = X.select_dtypes(include='object').columns.tolist()

# Pipeline numérico:
# 1. Imputar con KNN
# 2. Tratar outliers con Winsorización
# 3. Escalar
numerical_transformer = Pipeline(steps=[
    ('imputer', KNNImputer(n_neighbors=10)), 
    ('winsorizer', Winsorizer(limits=(0.05, 0.05))), 
    ('transformer', PowerTransformer(method='yeo-johnson')),
    ('scaler', StandardScaler()) 
])

# Pipeline categórico (sigue igual)
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))
])

# El preprocesador une ambos pipelines
preprocessor = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# 4. Definición del Pipeline COMPLETO (exactamente como lo tenías)
rf_lasso_pipeline = Pipeline(steps=[
    ('preprocessor', preprocessor), # ¡Ahora contiene KNN y Winsorizer!
    ('selector', SelectFromModel(
        Lasso(alpha=0.1, random_state=42), 
        prefit=False
    )),
    ('regressor', RandomForestRegressor(n_estimators=10, random_state=42))
])

# 5. Entrenamiento del Pipeline
print("🏋️ Entrenando Pipeline (Preprocesamiento -> Lasso -> Random Forest)...")
rf_lasso_pipeline.fit(X_train, y_train)
print("✅ Entrenamiento completado.")

# 6. Predicción (usando X_test)
y_pred = rf_lasso_pipeline.predict(X_test)

# 7. Cálculo de Métricas de Rendimiento
r2 = r2_score(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
mae = mean_absolute_error(y_test, y_pred)

# 8. Mostrar Resultados (igual que antes)
print("\n" + "="*50)
print("📊 Métricas de Rendimiento en el Conjunto de Prueba (Test)")
print(f"R-cuadrado (R²): {r2:.4f}")
print(f"Error Cuadrático Medio (MSE): {mse:.4f}")
print(f"Error Absoluto Medio (MAE): {mae:.4f}")

🏋️ Entrenando Pipeline (Preprocesamiento -> Lasso -> Random Forest)...


  model = cd_fast.enet_coordinate_descent(


✅ Entrenamiento completado.

📊 Métricas de Rendimiento en el Conjunto de Prueba (Test)
R-cuadrado (R²): -0.5487
Error Cuadrático Medio (MSE): 82569255458.8544
Error Absoluto Medio (MAE): 57182.1458


In [None]:
import pandas as pd
from sklearn.impute import SimpleImputer, KNNImputer 
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder, PowerTransformer
from sklearn.compose import ColumnTransformer
from sklearn.linear_model import Lasso
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score
from sklearn.neighbors import LocalOutlierFactor # <-- Nuevo Import


y = dataframe_cargado['Frio (Kw)']
X = dataframe_cargado.drop('Frio (Kw)', axis=1)

# División de Datos original
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.1, random_state=42
)

numerical_features = X.select_dtypes(include=np.number).columns.tolist()
categorical_features = X.select_dtypes(include='object').columns.tolist()

# 2. PRE-LIMPIEZA DE OUTLIERS CON LOF EN EL CONJUNTO DE ENTRENAMIENTO

# Pipeline de pre-procesamiento para LOF (Necesita imputación y escalamiento)
lof_prep = make_pipeline(
    KNNImputer(n_neighbors=10),
    StandardScaler()
)

print("\n" + "="*50)
print("🔍 Aplicando LOF para identificar y eliminar outliers del entrenamiento...")

# Aplicar el pre-procesamiento a las características numéricas de X_train
X_train_num_lof = X_train[numerical_features]
X_train_num_scaled = lof_prep.fit_transform(X_train_num_lof)

# Aplicar LOF
# contamination=0.05 (5% de filas atípicas esperadas).
lof = LocalOutlierFactor(contamination=0.05, n_neighbors=20)
# fit_predict devuelve -1 para outliers y 1 para inliers
outlier_scores = lof.fit_predict(X_train_num_scaled)

# Filtrar los datos de entrenamiento (solo mantener inliers)
inlier_mask = outlier_scores != -1
X_train_LOF_cleaned = X_train[inlier_mask].copy()
y_train_LOF_cleaned = y_train[inlier_mask].copy()

print(f"   -> Filas originales: {len(X_train)}")
print(f"   -> Filas eliminadas por LOF: {len(X_train) - len(X_train_LOF_cleaned)}")
print(f"   -> Filas restantes (limpias): {len(X_train_LOF_cleaned)}")
print("="*50)


#DEFINICIÓN DEL PIPELINE PRINCIPAL 

# Numérico
numerical_transformer_LOF = Pipeline(steps=[
    ('imputer', KNNImputer(n_neighbors=10)),
    ('transformer', PowerTransformer(method='yeo-johnson')), 
    ('scaler', StandardScaler()) 
])

# Categórico
categorical_transformer = Pipeline(steps=[
    ('imputer', SimpleImputer(strategy='constant', fill_value='missing')),
    ('onehot', OneHotEncoder(handle_unknown='ignore', sparse_output=False))
])

# ColumnTransformer
preprocessor_LOF = ColumnTransformer(
    transformers=[
        ('num', numerical_transformer_LOF, numerical_features),
        ('cat', categorical_transformer, categorical_features)
    ],
    remainder='passthrough'
)

# PIPELINE DE MODELADO
rf_lasso_pipeline_LOF = Pipeline(steps=[
    ('preprocessor', preprocessor_LOF), 
    ('selector', SelectFromModel(
        Lasso(alpha=0.1, random_state=42), 
        prefit=False
    )),
    ('regressor', RandomForestRegressor(n_estimators=100, random_state=42)) 
])

print(" Entrenando Pipeline (con datos limpios por LOF)...")
# ¡IMPORTANTE! Usar los datos de entrenamiento LIMPIOS
rf_lasso_pipeline_LOF.fit(X_train_LOF_cleaned, y_train_LOF_cleaned)
print(" Entrenamiento completado.")

# Predecir en el conjunto de prueba original
y_pred_LOF = rf_lasso_pipeline_LOF.predict(X_test)

# Cálculo de Métricas de Rendimiento
r2_lof = r2_score(y_test, y_pred_LOF)
mse_lof = mean_squared_error(y_test, y_pred_LOF)
mae_lof = mean_absolute_error(y_test, y_pred_LOF)

# Mostrar Resultados
print("\n" + "="*50)
print(" Resultados del Modelo Final con Pre-limpieza por LOF")
print("--------------------------------------------------")
print(f"R-cuadrado (R²): {r2_lof:.4f}")
print(f"Error Cuadrático Medio (MSE): {mse_lof:.4f}")
print(f"Error Absoluto Medio (MAE): {mae_lof:.4f}")
print("="*50)


🔍 Aplicando LOF para identificar y eliminar outliers del entrenamiento...
   -> Filas originales: 696
   -> Filas eliminadas por LOF: 35
   -> Filas restantes (limpias): 661
 Entrenando Pipeline (con datos limpios por LOF)...


  model = cd_fast.enet_coordinate_descent(


 Entrenamiento completado.

 Resultados del Modelo Final con Pre-limpieza por LOF
--------------------------------------------------
R-cuadrado (R²): 0.8845
Error Cuadrático Medio (MSE): 8389181.3276
Error Absoluto Medio (MAE): 1045.5719
