# Proyecto 1 ‚Äî Estaci√≥n de llenado y taponado



Importaci√≥n de las librerias

In [None]:
# Importaci√≥n de librer√≠as necesarias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from pathlib import Path

Definir las rutas de los archivos

In [None]:
data_path = Path("data")

telemetria_file = data_path / "telemetria.csv"
eventos_file = data_path / "eventos.csv"
botellas_file = data_path / "botellas.csv"

# FASE 1 --->Ingesta y validaci√≥n (Pandas)


PASO 1: Carga y tipado de datos

    1.1 Definir tipos de datos expl√≠citos para cada CSV utilizando un diccionario 

In [None]:

dtype_tel = {
    'temp_prod': 'float32',
    'vel_cinta': 'float32',
    'caudal': 'float32',
    'energia_kwh': 'float64'
}

dtype_evt = {
    'tipo': 'category',
    'id_botella': 'Int64'
}

dtype_pz = {
    'id_botella': 'int64',
    'peso_neto': 'float32',
    'formato': 'category'
}


    1.2 Cargar los csv en los dataFrames parseando el tiempo a datetime64

In [None]:
# Cargar telemetr√≠a con parseo de fecha
df_tel = pd.read_csv(
    telemetria_file,
    dtype=dtype_tel,
    parse_dates=['ts'],
    date_format='ISO8601'
)
# Convertir ts a UTC y establecer como √≠ndice
df_tel['ts'] = pd.to_datetime(df_tel['ts'], utc=True) # Convierte a datetime con zona horaria UTC
df_tel = df_tel.set_index('ts').sort_index() # Establece la columna de tiempo como √≠ndice del DataFrame

# Cargar eventos
df_evt = pd.read_csv(
    eventos_file,
    dtype=dtype_evt,
    parse_dates=['ts_ini', 'ts_fin'],
    date_format='ISO8601'
) # Lee el CSV y convierte autom√°ticamente las columnas de fecha
df_evt['ts_ini'] = pd.to_datetime(df_evt['ts_ini'], utc=True) #Convierte a datetime con zona horaria UTC
df_evt['ts_fin'] = pd.to_datetime(df_evt['ts_fin'], utc=True) #Convierte a datetime con zona horaria UTC
df_evt = df_evt.sort_values('ts_ini').reset_index(drop=True)

# Cargar botellas
df_pz = pd.read_csv(
    botellas_file,
    dtype=dtype_pz,
    parse_dates=['ts_ciclo'],
    date_format='ISO8601'
)
df_pz['ts_ciclo'] = pd.to_datetime(df_pz['ts_ciclo'], utc=True) #Convierte a datetime con zona horaria UTC
df_pz = df_pz.sort_values('ts_ciclo').reset_index(drop=True) #


PASO 2. Orden y duplicados

    2.1 Telemetr√≠a

In [None]:
print("Telemetria:")
# Eliminar duplicados exactos en telemetr√≠a
duplicados_antes_tel = df_tel.duplicated().sum()
df_tel = df_tel[~df_tel.duplicated(keep='first')]

#df_evt = df_evt[~df_evt.duplicated(keep='first')]

# Verificar monoton√≠a del √≠ndice
es_monotono_tel = df_tel.index.is_monotonic_increasing #Comprobacion de la monotonia: Los indices temporales avanzan correctamente de menor a mayor

print(f"Duplicados eliminados: {duplicados_antes_tel}")
print(f"√çndice mon√≥tono: {es_monotono_tel}")

# Verificar si hay duplicados en el √≠ndice temporal
duplicados_index = df_tel.index.duplicated().sum()
if duplicados_index > 0:
    print(f"Hay {duplicados_index} timestamps duplicados en el √≠ndice")
    df_tel = df_tel[~df_tel.index.duplicated(keep='first')]
else:
    print("No hay timestamps duplicados")


    2.2 Eventos

In [None]:
print("Eventos:")
# Eliminar duplicados exactos en telemetr√≠a
dup_evt = df_evt.duplicated().sum()
df_evt = df_evt[~df_evt.duplicated(keep='first')]

# Ordenar por tiempo de inicio (y fin como desempate)
df_evt = df_evt.sort_values(['ts_ini', 'ts_fin']).reset_index(drop=True)

# Chequeos
es_monotono_evt = df_evt['ts_ini'].is_monotonic_increasing
neg_dur = (df_evt['ts_fin'] < df_evt['ts_ini']).sum()
dup_ts_ini = df_evt['ts_ini'].duplicated().sum()

print(f"Duplicados eliminados: {dup_evt}")
print(f"Orden por ts_ini mon√≥tono: {es_monotono_evt}")
print(f"Eventos con ts_fin < ts_ini: {neg_dur}")
print(f"Timestamps ts_ini duplicados: {dup_ts_ini}")


    2.3 Botellas

In [None]:
print("Botellas:")
dup_pz = df_pz.duplicated().sum()
df_pz = df_pz[~df_pz.duplicated(keep='first')]

# Ordenar por ts_ciclo
df_pz = df_pz.sort_values('ts_ciclo').reset_index(drop=True)

# Chequeos
es_monotono_pz = df_pz['ts_ciclo'].is_monotonic_increasing
dup_ts_ciclo = df_pz['ts_ciclo'].duplicated().sum()
dup_id_botella = df_pz['id_botella'].duplicated().sum()

print(f"Duplicados eliminados: {dup_pz}")
print(f"Orden por ts_ciclo mon√≥tono: {es_monotono_pz}")
print(f"Timestamps ts_ciclo duplicados: {dup_ts_ciclo}")
print(f"id_botella duplicados: {dup_id_botella}")

PASO 3: Validaciones de rango

    3.1 Marcar valores fuera de rango (sin eliminar)

In [None]:
RANGO_TEMP = (18.0,35.0)
RANGO_VEL = (0.0,0.5)
RANGO_CAUDAL = (0.0,12.0)

df_tel['fuera_RANGO_TEMP'] = (df_tel['temp_prod'] < RANGO_TEMP[0]) | (df_tel['temp_prod'] > RANGO_TEMP[1])
df_tel['fuera_RANGO_VEL'] = (df_tel['vel_cinta'] < RANGO_VEL[0]) | (df_tel['vel_cinta'] > RANGO_VEL[1])
df_tel['fuera_RANGO_CAUDAL'] = (df_tel['caudal'] < RANGO_CAUDAL[0]) | (df_tel['caudal'] > RANGO_CAUDAL[1])

n_temp_fuera = df_tel['fuera_RANGO_TEMP'].sum()
n_vel_fuera = df_tel['fuera_RANGO_VEL'].sum()
n_caudal_fuera = df_tel['fuera_RANGO_CAUDAL'].sum()

print("="*60)
print("VALIDACI√ìN DE RANGOS")
print("="*60)
print(f"temp_prod fuera de [{RANGO_TEMP[0]}, {RANGO_TEMP[1]}] ¬∞C: {n_temp_fuera} ({n_temp_fuera/len(df_tel)*100:.2f}%)")
print(f"vel_cinta fuera de [{RANGO_VEL[0]}, {RANGO_VEL[1]}] m/s: {n_vel_fuera} ({n_vel_fuera/len(df_tel)*100:.2f}%)")
print(f"caudal fuera de [{RANGO_CAUDAL[0]}, {RANGO_CAUDAL[1]}] ml/s: {n_caudal_fuera} ({n_caudal_fuera/len(df_tel)*100:.2f}%)")

# Mostrar estad√≠sticas descriptivas
print("\nEstad√≠sticas descriptivas:")
print(df_tel[['temp_prod', 'vel_cinta', 'caudal', 'energia_kwh']].describe())

    3.2 Validar que energia_kwh no decrece (salvo cuantizaci√≥n)

In [None]:
# Calcular diferencias entre valores consecutivos de energ√≠a
df_tel['delta_energia'] = df_tel['energia_kwh'].diff()

# Contar cu√°ntas veces la energ√≠a DECRECE (delta < 0)
# Nota: diff() genera NaN en la primera fila, lo ignoramos
decrementos = (df_tel['delta_energia'] < 0).sum() 
total_cambios = df_tel['delta_energia'].notna().sum() #Va a contar cuantas veces decrece

print("="*60)
print("VALIDACI√ìN DE ENERG√çA NO DECRECIENTE")
print("="*60)
print(f"Total de cambios: {total_cambios:,}")
print(f"Decrementos detectados: {decrementos} ({decrementos/total_cambios*100:.3f}%)")

# Mostrar algunos ejemplos de decrementos (si existen)
if decrementos > 0:
    print("\n Ejemplos de energ√≠a que decrece:")
    ejemplos_decremento = df_tel[df_tel['delta_energia'] < 0][['energia_kwh', 'delta_energia']].head(10)
    print(ejemplos_decremento)
    
    # Estad√≠sticas de los decrementos
    print("\n Estad√≠sticas de los decrementos:")
    print(df_tel[df_tel['delta_energia'] < 0]['delta_energia'].describe())
else:
    print("\n No se detectaron decrementos en energia_kwh")

PASO 4: Monotonicidad de energ√≠a (correcci√≥n de decrementos)

In [None]:
# PASO 4: Corregir decrementos de energ√≠a (si los hubiera)
# Guardamos la columna original para comparaci√≥n
df_tel['energia_kwh_original'] = df_tel['energia_kwh'].copy()

# Identificar decrementos
decrementos_mask = df_tel['delta_energia'] < 0
n_correcciones = decrementos_mask.sum()

if n_correcciones > 0:
    print(f"Se encontraron {n_correcciones} decrementos. Corrigiendo...")
    
    # Hacer clip de deltas negativos a 0
    df_tel['delta_energia_corregida'] = df_tel['delta_energia'].clip(lower=0)
    
    # Reconstruir energ√≠a acumulada desde el primer valor
    energia_inicial = df_tel['energia_kwh'].iloc[0]
    df_tel['energia_kwh'] = energia_inicial + df_tel['delta_energia_corregida'].fillna(0).cumsum()
    
    # Recalcular delta_energia con valores corregidos
    df_tel['delta_energia'] = df_tel['energia_kwh'].diff()
    
    print(f"{n_correcciones} correcciones aplicadas")
else:
    print("No se requieren correcciones en energia_kwh")
    print("La se√±al es naturalmente mon√≥tona creciente")

# Verificaci√≥n final
decrementos_final = (df_tel['delta_energia'] < 0).sum()
print(f"\nVerificaci√≥n final: {decrementos_final} decrementos despu√©s de correcci√≥n")

PASO 5: Frecuencia y huecos temporales

    5.1 Confirmar frecuencia nominal de 1 Hz

In [None]:
# 5.1 Analizar la frecuencia de muestreo
print("="*60)
print("AN√ÅLISIS DE FRECUENCIA DE MUESTREO")
print("="*60)

# Calcular diferencias de tiempo entre muestras consecutivas
time_diffs = df_tel.index.to_series().diff()

# Contar muestras con intervalo de 1 segundo
intervalo_1s = time_diffs == pd.Timedelta(seconds=1)
n_1s = intervalo_1s.sum()
total = len(time_diffs) - 1  # -1 porque el primer valor es NaN

print(f"\nMuestras con intervalo de 1s: {n_1s}/{total}")

# Identificar huecos (intervalos > 1s)
huecos = time_diffs[time_diffs > pd.Timedelta(seconds=1)]
n_huecos = len(huecos)

print(f"\nHuecos detectados (intervalos > 1s): {n_huecos}")

if n_huecos > 0:
    print(f"\nEstad√≠sticas de los huecos:")
    print(huecos.describe())
    
    # Clasificar huecos
    huecos_pequenos = huecos[huecos <= pd.Timedelta(seconds=10)]
    huecos_grandes = huecos[huecos > pd.Timedelta(seconds=10)]
    
    print(f"\nHuecos peque√±os (‚â§10s): {len(huecos_pequenos)}")
    print(f"Huecos grandes (>10s): {len(huecos_grandes)}")
else:
    print(f"El numero de huecos es: {n_huecos}")
    print("La frecuencia nominal es de 1 Hz. Todos los saltos son de un segundo")
    print("No es necesario interpolar ni marcar segmentos invalidos")


    5.2 Reindexar a rejilla de 1 segundo

In [None]:
# 5.2 Reindexar a rejilla regular de 1 segundo
print("\n" + "="*60)
print("REINDEXACI√ìN A REJILLA DE 1 SEGUNDO")
print("="*60)

# Crear rejilla temporal de 1s desde el primer al √∫ltimo timestamp
ts_inicio = df_tel.index.min()
ts_fin = df_tel.index.max()
rejilla_1s = pd.date_range(start=ts_inicio, end=ts_fin, freq='1s')

print(f"\nRango temporal:")
print(f"   Inicio: {ts_inicio}")
print(f"   Fin: {ts_fin}")
print(f"   Duraci√≥n: {ts_fin - ts_inicio}")

print(f"\nTama√±o de los datos:")
print(f"   Muestras originales: {len(df_tel):,}")
print(f"   Rejilla de 1s: {len(rejilla_1s):,}")
print(f"   Diferencia (huecos): {len(rejilla_1s) - len(df_tel):,}")

# Reindexar el DataFrame a la rejilla de 1s
df_tel = df_tel.reindex(rejilla_1s)

print(f"\nDataFrame reindexado")

5.3 Rellenar huecos peque√±os (‚â§10s) con interpolaci√≥n

In [None]:
# 5.3 Rellenar huecos ‚â§ 10s
print("\n" + "="*60)
print("RELLENADO DE HUECOS PEQUE√ëOS (‚â§10s)")
print("="*60)

# Identificar bloques de NaN consecutivos
df_tel['es_nan'] = df_tel['temp_prod'].isna()
df_tel['bloque_nan'] = (df_tel['es_nan'] != df_tel['es_nan'].shift()).cumsum()

# Calcular tama√±o de cada bloque de NaN
tamano_bloques = df_tel[df_tel['es_nan']].groupby('bloque_nan').size()

# Clasificar bloques
bloques_pequenos = tamano_bloques[tamano_bloques <= 10]
bloques_grandes = tamano_bloques[tamano_bloques > 10]

print(f"\nBloques de NaN detectados:")
print(f"   Total de bloques: {len(tamano_bloques)}")
print(f"   Bloques ‚â§10s: {len(bloques_pequenos)} (se interpolar√°n)")
print(f"   Bloques >10s: {len(bloques_grandes)} (se marcar√°n como inv√°lidos)")

# Crear m√°scara para huecos peque√±os (‚â§10s)
mask_huecos_pequenos = df_tel['bloque_nan'].isin(bloques_pequenos.index) & df_tel['es_nan']

# Interpolaci√≥n lineal para temp_prod y caudal en huecos peque√±os
print(f"\nInterpolando temp_prod y caudal...")
df_tel.loc[mask_huecos_pequenos, 'temp_prod'] = df_tel['temp_prod'].interpolate(method='linear', limit=10)
df_tel.loc[mask_huecos_pequenos, 'caudal'] = df_tel['caudal'].interpolate(method='linear', limit=10)

# Forward-fill para vel_cinta (propagar √∫ltimo valor v√°lido)
print(f"Forward-fill en vel_cinta...")
df_tel.loc[mask_huecos_pequenos, 'vel_cinta'] = df_tel['vel_cinta'].ffill(limit=10)


    5.4 Marcar huecos grandes (>10s) como inv√°lidos

In [None]:
# 5.4 Marcar huecos grandes como inv√°lidos
print("\n" + "="*60)
print("MARCADO DE HUECOS GRANDES (>10s)")
print("="*60)

# Crear columna para marcar segmentos inv√°lidos
mask_huecos_grandes = df_tel['bloque_nan'].isin(bloques_grandes.index) & df_tel['es_nan']
df_tel['segmento_invalido'] = mask_huecos_grandes

# Contar segundos marcados como inv√°lidos
n_invalidos = df_tel['segmento_invalido'].sum()
total_segundos = len(df_tel)

print(f"\nSegmentos marcados como inv√°lidos:")
print(f"   Total de segundos inv√°lidos: {n_invalidos:,}")
print(f"   Porcentaje: {n_invalidos/total_segundos*100:.2f}%")

if len(bloques_grandes) > 0:
    print(f"\nDetalle de huecos grandes:")
    for i, (bloque_id, tamano) in enumerate(bloques_grandes.items(), 1):
        inicio_hueco = df_tel[df_tel['bloque_nan'] == bloque_id].index.min()
        fin_hueco = df_tel[df_tel['bloque_nan'] == bloque_id].index.max()
        print(f"   Hueco {i}: {tamano}s desde {inicio_hueco} hasta {fin_hueco}")
        if i >= 5:
            print(f"   ... y {len(bloques_grandes)-5} huecos m√°s")
            break

# Limpiar columnas auxiliares
df_tel = df_tel.drop(columns=['es_nan', 'bloque_nan'])

print(f"\n‚úÖ Proceso de huecos completado")

PASO 6: Detecci√≥n de at√≠picos

    6.1 Detecci√≥n por z-score (umbral ¬±3)

In [None]:
# 6.1 Detecci√≥n de at√≠picos por z-score
print("="*60)
print("DETECCI√ìN DE AT√çPICOS POR Z-SCORE")
print("="*60)

# Umbral est√°ndar: valores con |z-score| > 3 son at√≠picos
UMBRAL_Z = 3

# Calcular z-score para cada variable
# z-score = (valor - media) / desviaci√≥n est√°ndar
df_tel['z_temp'] = (df_tel['temp_prod'] - df_tel['temp_prod'].mean()) / df_tel['temp_prod'].std()
df_tel['z_vel'] = (df_tel['vel_cinta'] - df_tel['vel_cinta'].mean()) / df_tel['vel_cinta'].std()
df_tel['z_caudal'] = (df_tel['caudal'] - df_tel['caudal'].mean()) / df_tel['caudal'].std()

# Marcar at√≠picos (|z| > 3)
df_tel['atipico_z_temp'] = df_tel['z_temp'].abs() > UMBRAL_Z
df_tel['atipico_z_vel'] = df_tel['z_vel'].abs() > UMBRAL_Z
df_tel['atipico_z_caudal'] = df_tel['z_caudal'].abs() > UMBRAL_Z

# Contar at√≠picos detectados
n_atip_temp = df_tel['atipico_z_temp'].sum()
n_atip_vel = df_tel['atipico_z_vel'].sum()
n_atip_caudal = df_tel['atipico_z_caudal'].sum()

print(f"\nAt√≠picos detectados (|z-score| > {UMBRAL_Z}):")
print(f"   temp_prod: {n_atip_temp} ({n_atip_temp/len(df_tel)*100:.3f}%)")
print(f"   vel_cinta: {n_atip_vel} ({n_atip_vel/len(df_tel)*100:.3f}%)")
print(f"   caudal: {n_atip_caudal} ({n_atip_caudal/len(df_tel)*100:.3f}%)")

# Mostrar ejemplos si existen
if n_atip_temp > 0:
    print("\nEjemplos de at√≠picos en temp_prod:")
    print(df_tel[df_tel['atipico_z_temp']][['temp_prod', 'z_temp']].head())

    6.2 Detecci√≥n por IQR (rango intercuart√≠lico)

In [None]:
# 6.2 Detecci√≥n de at√≠picos por IQR
print("\n" + "="*60)
print("DETECCI√ìN DE AT√çPICOS POR IQR")
print("="*60)

# Calcular cuartiles y rango intercuart√≠lico (IQR)
# IQR = Q3 - Q1
# L√≠mites: [Q1 - 1.5*IQR, Q3 + 1.5*IQR]

for var in ['temp_prod', 'vel_cinta', 'caudal']:
    Q1 = df_tel[var].quantile(0.25)
    Q3 = df_tel[var].quantile(0.75)
    IQR = Q3 - Q1
    
    limite_inferior = Q1 - 1.5 * IQR
    limite_superior = Q3 + 1.5 * IQR
    
    # Marcar at√≠picos
    col_name = f'atipico_iqr_{var.split("_")[0]}'  # atipico_iqr_temp, atipico_iqr_vel, atipico_iqr_caudal
    df_tel[col_name] = (df_tel[var] < limite_inferior) | (df_tel[var] > limite_superior)
    
    n_atipicos = df_tel[col_name].sum()
    
    print(f"\n{var}:")
    print(f"   Q1: {Q1:.3f}")
    print(f"   Q3: {Q3:.3f}")
    print(f"   IQR: {IQR:.3f}")
    print(f"   L√≠mites: [{limite_inferior:.3f}, {limite_superior:.3f}]")
    print(f"   At√≠picos: {n_atipicos} ({n_atipicos/len(df_tel)*100:.3f}%)")

    6.3 Consolidar marcas de at√≠picos

In [None]:
# 6.3 Consolidar detecci√≥n de at√≠picos
print("\n" + "="*60)
print("CONSOLIDACI√ìN DE AT√çPICOS")
print("="*60)

# Crear columna que marca si hay alg√∫n at√≠pico (OR l√≥gico)
# Un registro es at√≠pico si al menos una variable lo es (por cualquier m√©todo)
df_tel['es_atipico'] = (
    df_tel['atipico_z_temp'] | df_tel['atipico_z_vel'] | df_tel['atipico_z_caudal'] |
    df_tel['atipico_iqr_temp'] | df_tel['atipico_iqr_vel'] | df_tel['atipico_iqr_caudal']
)

total_atipicos = df_tel['es_atipico'].sum()
porcentaje = total_atipicos / len(df_tel) * 100

print(f"\nRegistros con al menos un valor at√≠pico:")
print(f"   Total: {total_atipicos:,}")
print(f"   Porcentaje: {porcentaje:.2f}%")

# Resumen por m√©todo
print(f"\nComparaci√≥n de m√©todos:")
print(f"   Z-score: {(df_tel['atipico_z_temp'] | df_tel['atipico_z_vel'] | df_tel['atipico_z_caudal']).sum():,}")
print(f"   IQR: {(df_tel['atipico_iqr_temp'] | df_tel['atipico_iqr_vel'] | df_tel['atipico_iqr_caudal']).sum():,}")

PASO 7: Etiqueta RUN/STOP por segundo

    7.1 Construir m√°scara de paradas desde eventos

In [None]:
# 7.1 Construir m√°scara STOP_evt desde eventos.csv
print("="*60)
print("CONSTRUCCI√ìN DE M√ÅSCARA RUN/STOP")
print("="*60)

# Filtrar eventos que implican parada
eventos_parada = df_evt[df_evt['tipo'].isin(['micro_parada', 'cambio_formato', 'limpieza'])].copy()

print(f"\nEventos de parada encontrados:")
print(f"   Total: {len(eventos_parada)}")
print(f"   micro_parada: {(eventos_parada['tipo'] == 'micro_parada').sum()}")
print(f"   cambio_formato: {(eventos_parada['tipo'] == 'cambio_formato').sum()}")
print(f"   limpieza: {(eventos_parada['tipo'] == 'limpieza').sum()}")

# Inicializar columna STOP_evt en False (por defecto est√° en marcha)
df_tel['STOP_evt'] = False

# Marcar como True los segundos que caen en intervalos [ts_ini, ts_fin)
for idx, evento in eventos_parada.iterrows():
    mascara_tiempo = (df_tel.index >= evento['ts_ini']) & (df_tel.index < evento['ts_fin'])
    df_tel.loc[mascara_tiempo, 'STOP_evt'] = True

n_stop_evt = df_tel['STOP_evt'].sum()
print(f"\nSegundos marcados como STOP por eventos: {n_stop_evt:,} ({n_stop_evt/len(df_tel)*100:.2f}%)")

7.2 Definir RUN basado en velocidad de cinta

In [None]:
# 7.2 Definir RUN_vel basado en velocidad de cinta
print("\n" + "="*60)
print("DEFINICI√ìN DE RUN_vel")
print("="*60)

# Umbral de velocidad para considerar que la m√°quina est√° en marcha
UMBRAL_VEL_RUN = 0.05  # m/s

# RUN_vel = True si vel_cinta >= 0.05 m/s
df_tel['RUN_vel'] = df_tel['vel_cinta'] >= UMBRAL_VEL_RUN

n_run_vel = df_tel['RUN_vel'].sum()
print(f"\nUmbral de velocidad: {UMBRAL_VEL_RUN} m/s")
print(f"Segundos con RUN_vel=True: {n_run_vel:,}")
print(f"Segundos con RUN_vel=False: {len(df_tel)-n_run_vel:,}")

7.3 Combinar en estado final (RUN/STOP)

In [None]:
# 7.3 Definir estado final: RUN si RUN_vel=True Y STOP_evt=False
print("\n" + "="*60)
print("COMBINACI√ìN DE CONDICIONES")
print("="*60)

# estado = RUN si (RUN_vel AND NOT STOP_evt), STOP en otro caso
df_tel['estado'] = 'STOP'
df_tel.loc[df_tel['RUN_vel'] & ~df_tel['STOP_evt'], 'estado'] = 'RUN'

# Convertir a tipo category para ahorrar memoria
df_tel['estado'] = df_tel['estado'].astype('category')

# Contar estados
n_run = (df_tel['estado'] == 'RUN').sum()
n_stop = (df_tel['estado'] == 'STOP').sum()

print(f"\nDistribuci√≥n de estados:")
print(f"   RUN: {n_run:,}")
print(f"   STOP: {n_stop:,}")

# An√°lisis de transiciones
df_tel['cambio_estado'] = df_tel['estado'] != df_tel['estado'].shift()
n_transiciones = df_tel['cambio_estado'].sum() - 1  # -1 para excluir el primer valor

print(f"\nTransiciones de estado detectadas: {n_transiciones}")

PASO 8: Agregaci√≥n a 1 minuto (diagn√≥stico temprano)

In [None]:
print("="*60)
print("AGREGACI√ìN A 1 MINUTO")
print("="*60)

# Crear agregaciones por minuto
df_1min = df_tel.resample('1min').agg({
    'temp_prod': ['mean', lambda x: x.quantile(0.95)],
    'caudal': 'mean',
    'vel_cinta': 'mean',
    'energia_kwh': 'last',  # √öltimo valor del minuto (acumulado)
    'estado': lambda x: (x == 'STOP').sum()  # Contar segundos en STOP
}).round(3)

# Aplanar nombres de columnas
df_1min.columns = ['temp_mean', 'temp_p95', 'caudal_mean', 'vel_cinta_mean', 'energia_kwh', 'segundos_stop']

# Calcular m√©tricas derivadas
df_1min['pct_stop'] = (df_1min['segundos_stop'] / 60 * 100).round(2)
df_1min['segundos_run'] = 60 - df_1min['segundos_stop']
df_1min['pct_run'] = (df_1min['segundos_run'] / 60 * 100).round(2)

# Calcular delta de energ√≠a por minuto
df_1min['delta_energia_min'] = df_1min['energia_kwh'].diff()

# Informaci√≥n del resultado
print(f"\nDataFrame agregado:")
print(f"   Registros originales (1s): {len(df_tel):,}")
print(f"   Registros agregados (1min): {len(df_1min):,}")
print(f"   Rango temporal: {df_1min.index.min()} a {df_1min.index.max()}")

print(f"\nColumnas creadas:")
for col in df_1min.columns:
    print(f"   - {col}")

print(f"\nEstad√≠sticas de disponibilidad:")
print(f"   Media % RUN por minuto: {df_1min['pct_run'].mean():.2f}%")
print(f"   Media % STOP por minuto: {df_1min['pct_stop'].mean():.2f}%")
print(f"   Minutos con 100% RUN: {(df_1min['pct_run'] == 100).sum()} ({(df_1min['pct_run'] == 100).sum()/len(df_1min)*100:.2f}%)")
print(f"   Minutos con 100% STOP: {(df_1min['pct_stop'] == 100).sum()} ({(df_1min['pct_stop'] == 100).sum()/len(df_1min)*100:.2f}%)")

print(f"\nPrimeros registros:")
print(df_1min.head())

# FASE 2: Ingenier√≠a de variables y KPIs (NumPy + Pandas)

PASO 1: C√°lculo de potencia instant√°nea desde energ√≠a acumulada

    F√≥rmula: P_kW = ŒîE / Œît (donde Œît est√° en horas)

### F√≥rmulas implementadas

**C√°lculo de potencia instant√°nea:**

$$\Delta E_i = \max\{E_i - E_{i-1}, 0\}$$

$$\Delta t_i = \frac{t_i - t_{i-1}}{3600} \text{ (horas)}$$

$$P_{\text{kW},i} = \frac{\Delta E_i}{\Delta t_i}$$

$$P_{\text{W},i} = 1000 \cdot P_{\text{kW},i}$$

**Suavizado opcional (media m√≥vil):**
- Ventana: 5 segundos (centrada)
- Objetivo: Mitigar efectos de cuantizaci√≥n del contador de energ√≠a

In [None]:
print("="*60)
print("C√ÅLCULO DE POTENCIA INSTANT√ÅNEA")
print("="*60)

# Calcular delta de energ√≠a (ya lo ten√≠amos del Paso 4)
# df_tel['delta_energia'] ya existe

# Calcular delta de tiempo en horas
df_tel['delta_tiempo_h'] = df_tel.index.to_series().diff().dt.total_seconds() / 3600

# Calcular potencia en kW: P = ŒîE / Œît
# Evitar divisi√≥n por cero
df_tel['P_kW'] = np.where(
    df_tel['delta_tiempo_h'] > 0,
    df_tel['delta_energia'] / df_tel['delta_tiempo_h'],
    0
)

# Suavizar potencia con media m√≥vil de 5 segundos para mitigar cuantizaci√≥n
df_tel['P_kW_suavizada'] = df_tel['P_kW'].rolling(window=5, center=True, min_periods=1).mean()

# Mostrar resultados de las f√≥rmulas aplicadas
print("\nPrimeros 10 valores calculados:")
print(df_tel[['energia_kwh', 'delta_energia', 'delta_tiempo_h', 'P_kW', 'P_kW_suavizada']].head(10))

print(f"\n‚úÖ Potencia instant√°nea calculada")

PASO 2: Agregaci√≥n a 1 minuto (telemetr√≠a)

### F√≥rmulas de agregaci√≥n

Para cada minuto $m$:

$$\text{temp\_mean}(m) = \text{mean}(T)$$

$$\text{temp\_p95}(m) = \text{p95}(T)$$

$$\text{caudal\_mean}(m) = \text{mean}(q)$$

$$\text{P\_kW\_mean}(m) = \text{mean}(P)$$

$$\%\text{STOP}(m) = 100 \cdot \frac{\#\{i \in m : \text{estado}_i = \text{STOP}\}}{60}$$

Estas series minuto servir√°n como base para KPIs horarios/por turno.

In [None]:
print("="*60)
print("AGREGACI√ìN A 1 MINUTO (TELEMETR√çA)")
print("="*60)

# Crear agregaciones por minuto aplicando las f√≥rmulas
df_1min = df_tel.resample('1min').agg({
    'temp_prod': ['mean', lambda x: x.quantile(0.95)],
    'caudal': 'mean',
    'P_kW': 'mean',
    'estado': lambda x: (x == 'STOP').sum()
}).round(3)

# Aplanar nombres de columnas
df_1min.columns = ['temp_mean', 'temp_p95', 'caudal_mean', 'P_kW_mean', 'segundos_stop']

# Calcular %STOP
df_1min['pct_STOP'] = ((df_1min['segundos_stop'] / 60) * 100).round(2)

print(f"\nPrimeros registros:")
print(df_1min.head(10))

print(f"\n‚úÖ Agregaci√≥n a 1 minuto completada")

PASO 3: Clasificaci√≥n de botellas por tolerancia de peso

### Objetivo de masa por formato

$$m_{\text{obj}}(250) = 250\text{ g}, \quad m_{\text{obj}}(500) = 500\text{ g}$$

### Criterio de tolerancia

Con tolerancia t√≠pica del ¬±2%, una unidad est√° dentro de tolerancia si:

$$|\text{peso\_lleno\_g} - m_{\text{obj}}(f)| \leq 0.02 \cdot m_{\text{obj}}(f)$$

Donde:
- $\text{peso\_lleno\_g}$ es el peso neto de la botella (en gramos)
- $f$ es el formato (250 o 500)
- $m_{\text{obj}}(f)$ es la masa objetivo seg√∫n el formato

In [None]:
print("="*60)
print("CLASIFICACI√ìN DE BOTELLAS POR TOLERANCIA")
print("="*60)

# Definir masa objetivo seg√∫n formato
MASA_OBJ = {250: 250.0, 500: 500.0}
TOLERANCIA = 0.02  # ¬±2%

# Crear columna con masa objetivo seg√∫n el formato de cada botella
df_pz['masa_objetivo'] = df_pz['formato_ml'].map(MASA_OBJ)

# Calcular desviaci√≥n absoluta respecto al objetivo
df_pz['desviacion_abs'] = np.abs(df_pz['peso_lleno_g'] - df_pz['masa_objetivo'])

# Calcular l√≠mite de tolerancia (2% de la masa objetivo)
df_pz['limite_tolerancia'] = TOLERANCIA * df_pz['masa_objetivo']

# Clasificar: dentro_tolerancia = True si |peso_neto - m_obj| ‚â§ 0.02 * m_obj
df_pz['dentro_tolerancia'] = df_pz['desviacion_abs'] <= df_pz['limite_tolerancia']

# Mostrar resultados
print(f"\nPrimeros registros clasificados:")
print(df_pz[['id_botella', 'formato_ml', 'peso_lleno_g', 'masa_objetivo', 'desviacion_abs', 'dentro_tolerancia']].head(10))

print(f"\n‚úÖ Clasificaci√≥n completada")

## PASO 4: KPIs por hora y por turno

### Definiciones de KPIs

Sea $W$ la ventana temporal (hora o turno). Calculamos:

---

#### 1. **Throughput** (unidades/hora)

$$\text{Throughput}(W) = \frac{N_W}{\text{horas}(W)}$$

**Donde:**
- $N_W$ = n√∫mero total de botellas producidas en $W$
- $\text{horas}(W)$ = 1 hora (ventanas horarias) o 8 horas (turnos)

---

#### 2. **Scrap** (% no conforme)

$$\text{Scrap}(W) = 100 \cdot \frac{NG_W}{OK_W + NG_W} \quad \text{(si } N_W > 0\text{; en otro caso NaN)}$$

**Donde:**
- $NG_W$ = botellas fuera de tolerancia
- $OK_W$ = botellas dentro de tolerancia

---

#### 3. **Tiempo en marcha** (horas)

$$\text{Tiempo en marcha}(W) = t_{\text{RUN}}(W)$$

**Calculado como:**
$$t_{\text{RUN}}(W) = \frac{\#\{i \in W : \text{estado}_i = \text{RUN}\}}{3600}$$

---

#### 4. **Energ√≠a espec√≠fica** (Wh/unidad)

$$\text{Wh/ud}(W) = \frac{1000 \cdot \Delta E_{\text{kWh}}(W)}{N_W} \quad \text{(si } N_W > 0\text{; en otro caso NaN)}$$

**Donde:**
- $\Delta E_{\text{kWh}}(W)$ = energ√≠a consumida en la ventana $W$
- Factor 1000 para convertir kWh ‚Üí Wh

---

#### 5. **% dentro de tolerancia**

$$\%\text{Tol}(W) = 100 \cdot \frac{\#\{\text{unidades en tolerancia}\}}{N_W} \quad \text{(si } N_W > 0\text{)}$$

---

### Agregaci√≥n temporal

**Por hora:**
- Resample de telemetr√≠a: `resample('1h')`
- Resample de botellas: `set_index('ts_ciclo').resample('1h')`

**Por turno:**
- Definir funci√≥n `asignar_turno(hora)`:
  - T1 (Ma√±ana): 06:00 - 14:00
  - T2 (Tarde): 14:00 - 22:00
  - T3 (Noche): 22:00 - 06:00
- Agrupar con `groupby(['fecha', 'turno'])`

---

### Combinaci√≥n de fuentes

Combinar DataFrames de **botellas** y **telemetr√≠a** usando:
````python
kpis = pd.concat([kpis_botellas, kpis_telemetria], axis=1)

In [None]:
# PASO 11: Clasificaci√≥n de botellas por tolerancia de peso
print("="*60)
print("CLASIFICACI√ìN DE BOTELLAS POR TOLERANCIA")
print("="*60)

# ============================================================================
# PARTE A: KPIs POR HORA
# ============================================================================
print("\n--- KPIs POR HORA ---")

# 1. Preparar df_pz con √≠ndice temporal
df_pz_idx = df_pz.set_index('ts_ciclo')

# 2. Agregar botellas por hora
kpis_hora_pz = df_pz_idx.resample('1h').agg({
    'id_botella': 'count',  # N_W: Total de botellas
    'dentro_tolerancia': ['sum', lambda x: (~x).sum()]  # OK y NG
})

# Aplanar nombres de columnas
kpis_hora_pz.columns = ['N_botellas', 'OK', 'NG']

# 3. Agregar telemetr√≠a por hora
kpis_hora_tel = df_tel.resample('1h').agg({
    'estado': lambda x: (x == 'RUN').sum() / 3600,  # Tiempo en RUN (horas)
    'energia_kwh': ['first', 'last']  # Energ√≠a inicial y final
})

kpis_hora_tel.columns = ['horas_RUN', 'energia_ini', 'energia_fin']
kpis_hora_tel['delta_energia_kWh'] = kpis_hora_tel['energia_fin'] - kpis_hora_tel['energia_ini']

# 4. Combinar ambos DataFrames
kpis_hora = pd.concat([kpis_hora_pz, kpis_hora_tel], axis=1)

# 5. Calcular KPIs
kpis_hora['throughput_ud_h'] = np.where(
    kpis_hora['N_botellas'] > 0,
    kpis_hora['N_botellas'] / 1.0,  # Dividir por 1 hora
    np.nan
)

kpis_hora['scrap_pct'] = np.where(
    kpis_hora['N_botellas'] > 0,
    100 * kpis_hora['NG'] / kpis_hora['N_botellas'],
    np.nan
)

kpis_hora['energia_Wh_ud'] = np.where(
    kpis_hora['N_botellas'] > 0,
    1000 * kpis_hora['delta_energia_kWh'] / kpis_hora['N_botellas'],
    np.nan
)

kpis_hora['pct_tolerancia'] = np.where(
    kpis_hora['N_botellas'] > 0,
    100 * kpis_hora['OK'] / kpis_hora['N_botellas'],
    np.nan
)

# Redondear
kpis_hora = kpis_hora.round(2)

print(f"\nKPIs por hora calculados: {len(kpis_hora)} horas")
print(f"\nPrimeras horas:")
print(kpis_hora[['N_botellas', 'throughput_ud_h', 'scrap_pct', 'horas_RUN', 'energia_Wh_ud', 'pct_tolerancia']].head(10))

# ============================================================================
# PARTE B: KPIs POR TURNO
# ============================================================================
print("\n" + "="*60)
print("--- KPIs POR TURNO ---")

# Definir turnos (ejemplo: 06:00-14:00, 14:00-22:00, 22:00-06:00)
def asignar_turno(hora):
    if 6 <= hora < 14:
        return 'T1_Ma√±ana'
    elif 14 <= hora < 22:
        return 'T2_Tarde'
    else:
        return 'T3_Noche'

# Asignar turno a cada botella
df_pz['turno'] = df_pz['ts_ciclo'].dt.hour.apply(asignar_turno)
df_pz['fecha'] = df_pz['ts_ciclo'].dt.date

# Asignar turno a telemetr√≠a
df_tel['turno'] = df_tel.index.hour.map(asignar_turno)
df_tel['fecha'] = df_tel.index.date

# Agregar por fecha y turno (botellas)
kpis_turno_pz = df_pz.groupby(['fecha', 'turno']).agg({
    'id_botella': 'count',
    'dentro_tolerancia': ['sum', lambda x: (~x).sum()]
})

kpis_turno_pz.columns = ['N_botellas', 'OK', 'NG']

# Agregar por fecha y turno (telemetr√≠a)
kpis_turno_tel = df_tel.groupby(['fecha', 'turno']).agg({
    'estado': lambda x: (x == 'RUN').sum() / 3600,
    'energia_kwh': ['first', 'last']
})

kpis_turno_tel.columns = ['horas_RUN', 'energia_ini', 'energia_fin']
kpis_turno_tel['delta_energia_kWh'] = kpis_turno_tel['energia_fin'] - kpis_turno_tel['energia_ini']

# Combinar
kpis_turno = pd.concat([kpis_turno_pz, kpis_turno_tel], axis=1)

# Calcular KPIs por turno (8 horas por turno)
kpis_turno['throughput_ud_h'] = np.where(
    kpis_turno['N_botellas'] > 0,
    kpis_turno['N_botellas'] / 8.0,
    np.nan
)

kpis_turno['scrap_pct'] = np.where(
    kpis_turno['N_botellas'] > 0,
    100 * kpis_turno['NG'] / kpis_turno['N_botellas'],
    np.nan
)

kpis_turno['energia_Wh_ud'] = np.where(
    kpis_turno['N_botellas'] > 0,
    1000 * kpis_turno['delta_energia_kWh'] / kpis_turno['N_botellas'],
    np.nan
)

kpis_turno['pct_tolerancia'] = np.where(
    kpis_turno['N_botellas'] > 0,
    100 * kpis_turno['OK'] / kpis_turno['N_botellas'],
    np.nan
)

# Redondear
kpis_turno = kpis_turno.round(2)

print(f"\nKPIs por turno calculados: {len(kpis_turno)} turnos")
print(f"\nPrimeros turnos:")
print(kpis_turno[['N_botellas', 'throughput_ud_h', 'scrap_pct', 'horas_RUN', 'energia_Wh_ud', 'pct_tolerancia']].head(10))

print(f"\n‚úÖ KPIs por hora y turno calculados correctamente")

PASO 5: C√°lculo del OEE - Opci√≥n A (Por tiempos y ciclo nominal)

### F√≥rmula del OEE

$$\text{OEE}(W) = \text{Availability}(W) \times \text{Performance}(W) \times \text{Quality}(W)$$

---

### Componentes del OEE

#### 1. Availability (Disponibilidad)

$$\text{Availability}(W) = \frac{t_{\text{RUN}}(W)}{t_{\text{plan}}(W)}$$

**Interpretaci√≥n:** Proporci√≥n del tiempo planificado que la m√°quina estuvo en marcha.

---

#### 2. Performance (Rendimiento)

$$\text{Performance}(W) \approx \frac{t_{\text{nom}}(W)}{t_{\text{medio\_RUN}}(W)}$$

Donde:
- $t_{\text{nom}}(W)$ = tiempo de ciclo nominal ponderado por formato en $W$
- $t_{\text{medio\_RUN}}(W)$ = tiempo medio de ciclo durante RUN en $W$

**Interpretaci√≥n:** Qu√© tan r√°pido producimos vs. la velocidad te√≥rica.

---

#### 3. Quality (Calidad)

$$\text{Quality}(W) = \frac{OK_W}{OK_W + NG_W}$$

**Interpretaci√≥n:** Proporci√≥n de piezas buenas sobre el total producido.

---

### Par√°metros

- $t_{\text{nom}} = 1.5$ s/botella (equivale a 2400 botellas/hora)
- $t_{\text{plan}} = 1$ hora (para ventanas horarias) √≥ $8$ horas (para turnos)

---

### Consideraciones de implementaci√≥n

- Si $N_W = 0$ o $t_{\text{RUN}}(W) = 0$ ‚Üí devolver `NaN`
- Availability ya calculada en PASO 4 como `horas_RUN / horas_planificadas`
- Quality ya calculada en PASO 4 como `pct_tolerancia / 100`

In [None]:
# PASO 12: C√°lculo del OEE - Opci√≥n A
print("="*60)
print("C√ÅLCULO DEL OEE - OPCI√ìN A")
print("="*60)

# ============================================================================
# PAR√ÅMETROS
# ============================================================================
T_NOM = 1.5  # segundos/botella
HORAS_PLANIFICADAS_HORA = 1.0  # 1 hora
HORAS_PLANIFICADAS_TURNO = 8.0  # 8 horas por turno

print(f"\nPar√°metros:")
print(f"   t_nom: {T_NOM} s/botella")
print(f"   Horas planificadas (hora): {HORAS_PLANIFICADAS_HORA} h")
print(f"   Horas planificadas (turno): {HORAS_PLANIFICADAS_TURNO} h")

# ============================================================================
# PARTE A: OEE POR HORA
# ============================================================================
print("\n" + "="*60)
print("--- OEE POR HORA ---")

# 1. Availability = horas_RUN / horas_planificadas
kpis_hora['Availability'] = kpis_hora['horas_RUN'] / HORAS_PLANIFICADAS_HORA

# 2. Performance = t_nom / t_medio_RUN
#    t_medio_RUN = horas_RUN / N_botellas (en horas/botella)
#    Convertir t_nom a horas: 1.5 s = 1.5/3600 horas
kpis_hora['Performance'] = np.where(
    (kpis_hora['N_botellas'] > 0) & (kpis_hora['horas_RUN'] > 0),
    (T_NOM / 3600) / (kpis_hora['horas_RUN'] / kpis_hora['N_botellas']),
    np.nan
)

# 3. Quality = pct_tolerancia / 100
kpis_hora['Quality'] = kpis_hora['pct_tolerancia'] / 100

# 4. OEE = Availability √ó Performance √ó Quality
kpis_hora['OEE'] = kpis_hora['Availability'] * kpis_hora['Performance'] * kpis_hora['Quality']

# Convertir a porcentaje
kpis_hora['OEE_pct'] = (kpis_hora['OEE'] * 100).round(2)

print(f"\nPrimeras horas con OEE:")
print(kpis_hora[['N_botellas', 'Availability', 'Performance', 'Quality', 'OEE_pct']].head(10))

# ============================================================================
# PARTE B: OEE POR TURNO
# ============================================================================
print("\n" + "="*60)
print("--- OEE POR TURNO ---")

# 1. Availability = horas_RUN / horas_planificadas
kpis_turno['Availability'] = kpis_turno['horas_RUN'] / HORAS_PLANIFICADAS_TURNO

# 2. Performance = t_nom / t_medio_RUN
kpis_turno['Performance'] = np.where(
    (kpis_turno['N_botellas'] > 0) & (kpis_turno['horas_RUN'] > 0),
    (T_NOM / 3600) / (kpis_turno['horas_RUN'] / kpis_turno['N_botellas']),
    np.nan
)

# 3. Quality = pct_tolerancia / 100
kpis_turno['Quality'] = kpis_turno['pct_tolerancia'] / 100

# 4. OEE = Availability √ó Performance √ó Quality
kpis_turno['OEE'] = kpis_turno['Availability'] * kpis_turno['Performance'] * kpis_turno['Quality']

# Convertir a porcentaje
kpis_turno['OEE_pct'] = (kpis_turno['OEE'] * 100).round(2)

print(f"\nPrimeros turnos con OEE:")
print(kpis_turno[['N_botellas', 'Availability', 'Performance', 'Quality', 'OEE_pct']].head(10))

print(f"\n‚úÖ OEE calculado (Opci√≥n A)")

# FASE 3 ‚Äî An√°lisis num√©rico (NumPy puro)

## Preparaci√≥n y notaci√≥n

**Rejilla temporal:** Por-ciclo (cada botella alineada con telemetr√≠a m√°s pr√≥xima)

**Variables continuas:**
- `T` = temp_prod (¬∞C)
- `q` = caudal (ml/s)
- `P` = P_kW (kW)
- `tc` = tiempo_ciclo_s (s)

**Variable binaria:**
- `RUN ‚àà {0,1}` (1 si en marcha)

**Error de llenado:**
- `e = peso_lleno_g - m_obj(f)` donde `m_obj(250)=250g`, `m_obj(500)=500g`

In [None]:
# PASO 1.1: Calcular error de llenado
print("="*60)
print("FASE 3 - AN√ÅLISIS NUM√âRICO (NumPy puro)")
print("="*60)
print("\nPASO 1.1: C√°lculo del error de llenado")

# e = peso_lleno_g - m_obj(f)
df_pz['error_llenado'] = df_pz['peso_lleno_g'] - df_pz['masa_objetivo']

print(f"\nError de llenado calculado:")
print(f"   Media: {df_pz['error_llenado'].mean():.3f} g")
print(f"   Std: {df_pz['error_llenado'].std():.3f} g")
print(f"   Min: {df_pz['error_llenado'].min():.3f} g")
print(f"   Max: {df_pz['error_llenado'].max():.3f} g")

print(f"\n‚úÖ Error de llenado calculado")

# PASO 1.2: Calcular tiempo de ciclo
print("\n" + "="*60)
print("PASO 1.2: C√°lculo del tiempo de ciclo")

# tc = diferencia temporal entre botellas consecutivas (en segundos)
df_pz['tiempo_ciclo_s'] = df_pz['ts_ciclo'].diff().dt.total_seconds()

# Estad√≠sticas (ignorar primer valor NaN)
tc_validos = df_pz['tiempo_ciclo_s'].dropna()

print(f"\nTiempo de ciclo calculado:")
print(f"   Media: {tc_validos.mean():.3f} s")
print(f"   Mediana: {tc_validos.median():.3f} s")
print(f"   Std: {tc_validos.std():.3f} s")
print(f"   Min: {tc_validos.min():.3f} s")
print(f"   Max: {tc_validos.max():.3f} s")

print(f"\n‚úÖ Tiempo de ciclo calculado")


# PASO 1.3: Alinear telemetr√≠a con botellas
print("\n" + "="*60)
print("PASO 1.3: Alineaci√≥n telemetr√≠a con botellas (merge_asof)")

# Preparar df_tel: asegurar que el √≠ndice se llame 'ts' y reset_index
df_tel.index.name = 'ts'  # Asegurar nombre del √≠ndice
df_tel_temp = df_tel[['temp_prod', 'caudal', 'P_kW', 'estado']].reset_index()

# Alinear cada botella con la muestra de telemetr√≠a m√°s cercana ANTES del ciclo
df_merge = pd.merge_asof(
    df_pz.sort_values('ts_ciclo'),
    df_tel_temp.sort_values('ts'),
    left_on='ts_ciclo',
    right_on='ts',
    direction='backward',
    tolerance=pd.Timedelta(seconds=5)  # M√°ximo 5 segundos de diferencia
)

# Convertir estado a binario: RUN=1, STOP=0
df_merge['RUN'] = (df_merge['estado'] == 'RUN').astype(int)

print(f"\nAlineaci√≥n completada:")
print(f"   Total de botellas: {len(df_merge):,}")
print(f"   Botellas con telemetr√≠a v√°lida: {df_merge['temp_prod'].notna().sum():,}")

print(f"\nPrimeros registros alineados:")
print(df_merge[['ts_ciclo', 'temp_prod', 'caudal', 'P_kW', 'tiempo_ciclo_s', 'error_llenado', 'RUN']].head(10))

print(f"\n‚úÖ Datos alineados")


# PASO 1.4: Extraer arrays NumPy y crear m√°scara de datos v√°lidos
print("\n" + "="*60)
print("PASO 1.4: Extracci√≥n a NumPy y m√°scara de validez")

# Extraer arrays NumPy (a partir de aqu√≠ solo NumPy)
T = df_merge['temp_prod'].values
q = df_merge['caudal'].values
P = df_merge['P_kW'].values
tc = df_merge['tiempo_ciclo_s'].values
e = df_merge['error_llenado'].values
RUN = df_merge['RUN'].values

# Crear m√°scara de datos v√°lidos (sin NaN en ninguna variable)
mask_validos = ~(np.isnan(T) | np.isnan(q) | np.isnan(P) | np.isnan(tc) | np.isnan(e))

# Filtrar arrays con la m√°scara
T_clean = T[mask_validos]
q_clean = q[mask_validos]
P_clean = P[mask_validos]
tc_clean = tc[mask_validos]
e_clean = e[mask_validos]
RUN_clean = RUN[mask_validos]

n_total = len(T)
n_validos = len(T_clean)

print(f"\nM√°scara de datos v√°lidos:")
print(f"   Total de registros: {n_total:,}")
print(f"   Registros v√°lidos (sin NaN): {n_validos:,} ({n_validos/n_total*100:.2f}%)")
print(f"   Registros con NaN: {n_total - n_validos:,}")

print(f"\n‚úÖ Arrays NumPy preparados: T, q, P, tc, e, RUN")

## PASO 2: Correlaciones de Pearson

### F√≥rmula de correlaci√≥n de Pearson

$$r_{xy} = \frac{\text{cov}(x,y)}{\sigma_x \sigma_y} = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i-\bar{x})^2} \sqrt{\sum(y_i-\bar{y})^2}}$$

**Implementaci√≥n con estandarizaci√≥n:**

1. Estandarizar: $z = \frac{x - \bar{x}}{\sigma_x}$
2. Matriz de correlaci√≥n: $\mathbf{R} = \frac{\mathbf{X}_{\text{std}}^T \mathbf{X}_{\text{std}}}{n-1}$

donde $\mathbf{X}_{\text{std}}$ es la matriz de datos estandarizados.

In [None]:
# PASO 2: Correlaciones de Pearson (NumPy puro)
print("="*60)
print("PASO 2: CORRELACIONES DE PEARSON")
print("="*60)

# Funci√≥n para estandarizar (z-score)
def estandarizar(x):
    """Estandariza un array: (x - media) / std"""
    return (x - np.mean(x)) / np.std(x)

# Estandarizar todas las variables
T_std = estandarizar(T_clean)
q_std = estandarizar(q_clean)
P_std = estandarizar(P_clean)
tc_std = estandarizar(tc_clean)
e_std = estandarizar(e_clean)

# Construir matriz de datos estandarizados [T, q, P, tc, e]
X_std = np.column_stack([T_std, q_std, P_std, tc_std, e_std])

# Calcular matriz de correlaci√≥n: R = (X'X) / (n-1)
n = len(T_clean)
corr_matrix = (X_std.T @ X_std) / (n - 1)

# Nombres de variables
var_names = ['T', 'q', 'P', 'tc', 'e']

print(f"\nMatriz de correlaci√≥n de Pearson ({n:,} muestras):")
print("\n" + " "*8 + "".join(f"{v:>8}" for v in var_names))
print("-" * 48)
for i, nombre in enumerate(var_names):
    fila = "".join(f"{corr_matrix[i,j]:>8.3f}" for j in range(len(var_names)))
    print(f"{nombre:>8}{fila}")

# Identificar correlaciones m√°s fuertes con el error (e)
print(f"\nCorrelaciones con el error de llenado (e):")
idx_e = 4  # √çndice de 'e' en var_names
for i, var in enumerate(var_names[:-1]):  # Excluir 'e' mismo
    print(f"   {var} vs e: {corr_matrix[i, idx_e]:>7.3f}")

print(f"\n‚úÖ Correlaciones calculadas con NumPy puro")

## PASO 3: Regresi√≥n Lineal OLS (NumPy puro)

### Objetivo

Ajustar un **modelo de regresi√≥n lineal m√∫ltiple** para explicar el **error de llenado** `e` en funci√≥n de las variables f√≠sicas del proceso.

---

### Modelo matem√°tico

$$e = \beta_0 + \beta_1 T + \beta_2 q + \beta_3 P + \beta_4 \text{RUN} + \varepsilon$$

**Donde:**
- **Variable dependiente (y):** `e` = error de llenado (gramos)
- **Variables independientes (X):**
  - `T` = Temperatura del producto (¬∞C)
  - `q` = Caudal (ml/s)
  - `P` = Potencia instant√°nea (kW)
  - `RUN` = Estado de la m√°quina (1=marcha, 0=parada)
- **Œµ:** Error aleatorio

---

### F√≥rmula de estimaci√≥n OLS

**Matriz de dise√±o:**

$$\mathbf{X} = \begin{bmatrix} 
1 & T_1 & q_1 & P_1 & \text{RUN}_1 \\
1 & T_2 & q_2 & P_2 & \text{RUN}_2 \\
\vdots & \vdots & \vdots & \vdots & \vdots \\
1 & T_n & q_n & P_n & \text{RUN}_n
\end{bmatrix}, \quad
\mathbf{y} = \begin{bmatrix} e_1 \\ e_2 \\ \vdots \\ e_n \end{bmatrix}$$

**Estimador de m√≠nimos cuadrados:**

$$\hat{\boldsymbol{\beta}} = (\mathbf{X}^T \mathbf{X})^{-1} \mathbf{X}^T \mathbf{y}$$

---

### M√©tricas de calidad del ajuste

**1. Coeficiente de determinaci√≥n R¬≤:**

$$R^2 = 1 - \frac{SS_{\text{res}}}{SS_{\text{tot}}}$$

Donde:
- $SS_{\text{res}} = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2$ = Suma de cuadrados de residuos
- $SS_{\text{tot}} = \sum_{i=1}^{n} (y_i - \bar{y})^2$ = Suma de cuadrados total

**Interpretaci√≥n:** % de varianza explicada por el modelo.

---

**2. R¬≤ ajustado:**

$$R^2_{\text{adj}} = 1 - (1 - R^2) \cdot \frac{n-1}{n-p-1}$$

Donde:
- $n$ = n√∫mero de observaciones
- $p$ = n√∫mero de predictores (sin contar intercepto)

**Interpretaci√≥n:** Penaliza la adici√≥n de predictores que no mejoran significativamente el modelo.

---

### Diagn√≥sticos m√≠nimos

**Media de residuos:**

$$\bar{\varepsilon} = \frac{1}{n}\sum_{i=1}^{n}(y_i - \hat{y}_i) \approx 0$$

**Interpretaci√≥n f√≠sica esperada de los coeficientes:**

| Coeficiente | Signo esperado | Raz√≥n f√≠sica |
|-------------|----------------|--------------|
| Œ≤‚ÇÅ (T) | **Negativo (‚àí)** | ‚Üë temperatura ‚Üí ‚Üì viscosidad ‚Üí fluye m√°s r√°pido ‚Üí subllenado |
| Œ≤‚ÇÇ (q) | **Positivo (+)** | ‚Üë caudal ‚Üí mayor flujo ‚Üí sobrellenado |
| Œ≤‚ÇÉ (P) | **‚âà 0 o peque√±o** | Efecto indirecto; relacionado con velocidad de cinta |
| Œ≤‚ÇÑ (RUN) | **Negativo (‚àí)** | Transiciones STOP‚ÜíRUN pueden capturar inestabilidades |

---

### Implementaci√≥n

El c√≥digo aplicar√°:
1. Construcci√≥n de matrices **X** (con columna de unos) e **y**
2. Resoluci√≥n del sistema **X'XŒ≤ = X'y** usando `np.linalg.solve()`
3. C√°lculo de predicciones **≈∑ = XŒ≤**
4. C√°lculo de residuos **Œµ = y - ≈∑**
5. M√©tricas **R¬≤** y **R¬≤_adj**
6. Interpretaci√≥n de signos y magnitudes

In [None]:

# PASO 3: Regresi√≥n Lineal OLS (NumPy puro) - CON DIAGN√ìSTICO
print("="*60)
print("PASO 3: REGRESI√ìN LINEAL OLS (NumPy puro)")
print("="*60)

# ============================================================================
# 3.1: CONSTRUCCI√ìN DE MATRICES X e y
# ============================================================================
print("\n--- 3.1: Construcci√≥n de matrices ---")

# Matriz de dise√±o X: [1, T, q, P, RUN]
n = len(T_clean)
X_ols = np.column_stack([
    np.ones(n),      # Œ≤‚ÇÄ (intercepto)
    T_clean,         # Œ≤‚ÇÅ (temperatura)
    q_clean,         # Œ≤‚ÇÇ (caudal)
    P_clean,         # Œ≤‚ÇÉ (potencia)
    RUN_clean        # Œ≤‚ÇÑ (estado RUN/STOP)
])

y_ols = e_clean

print(f"Matriz X: {X_ols.shape} (n={n}, p={X_ols.shape[1]-1} predictores + intercepto)")
print(f"Vector y: {y_ols.shape}")

# ============================================================================
# DIAGN√ìSTICO: Verificar varianza y colinealidad
# ============================================================================
print("\n--- DIAGN√ìSTICO ---")

var_names = ['Intercepto', 'T', 'q', 'P', 'RUN']
print(f"\nEstad√≠sticas de cada columna de X:")
for i, name in enumerate(var_names):
    col = X_ols[:, i]
    print(f"   {name:12s}: min={np.min(col):>8.3f}, max={np.max(col):>8.3f}, "
          f"std={np.std(col):>8.3f}, unique={len(np.unique(col)):>5}")

# Verificar si hay columnas constantes (std ‚âà 0)
stds = np.std(X_ols, axis=0)
columnas_constantes = np.where(stds < 1e-10)[0]

if len(columnas_constantes) > 1:  # > 1 porque intercepto siempre es constante
    print(f"\n‚ö†Ô∏è  PROBLEMA: Columnas con varianza ‚âà0 detectadas:")
    for idx in columnas_constantes:
        print(f"   - {var_names[idx]} (std={stds[idx]:.10f})")
    print("\nSOLUCI√ìN: Eliminar variable(s) constante(s)")

# Verificar condici√≥n de la matriz X'X
XtX = X_ols.T @ X_ols
cond_number = np.linalg.cond(XtX)
print(f"\nN√∫mero de condici√≥n de X'X: {cond_number:.2e}")

if cond_number > 1e10:
    print("‚ö†Ô∏è  Matriz mal condicionada (multicolinealidad o columnas constantes)")
    print("   Soluci√≥n: Usar pseudo-inversa (np.linalg.lstsq)")

# ============================================================================
# 3.2: ESTIMACI√ìN DE COEFICIENTES Œ≤ (con manejo robusto)
# ============================================================================
print("\n--- 3.2: Estimaci√≥n de coeficientes ---")

try:
    # Intentar m√©todo est√°ndar
    Xty = X_ols.T @ y_ols
    beta = np.linalg.solve(XtX, Xty)
    metodo = "solve() directo"
    
except np.linalg.LinAlgError:
    # Si falla, usar m√≠nimos cuadrados con pseudo-inversa
    print("‚ö†Ô∏è  solve() fall√≥ (matriz singular)")
    print("   Usando np.linalg.lstsq() (pseudo-inversa)")
    
    beta, residuals, rank, s = np.linalg.lstsq(X_ols, y_ols, rcond=None)
    metodo = f"lstsq() - rank={rank}/{X_ols.shape[1]}"
    
    if rank < X_ols.shape[1]:
        print(f"   ‚ö†Ô∏è  Rango deficiente: {rank}/{X_ols.shape[1]}")
        print(f"   Algunas variables pueden ser redundantes")

# Nombres de los coeficientes
coef_names = ['Œ≤‚ÇÄ (intercepto)', 'Œ≤‚ÇÅ (T)', 'Œ≤‚ÇÇ (q)', 'Œ≤‚ÇÉ (P)', 'Œ≤‚ÇÑ (RUN)']

print(f"\nM√©todo usado: {metodo}")
print(f"\nCoeficientes estimados:")
for name, coef in zip(coef_names, beta):
    print(f"   {name:20s}: {coef:>10.6f}")

# ============================================================================
# 3.3: PREDICCIONES Y RESIDUOS
# ============================================================================
print("\n--- 3.3: Predicciones y residuos ---")

y_pred = X_ols @ beta
residuos = y_ols - y_pred

print(f"\nEstad√≠sticas de residuos:")
print(f"   Media: {np.mean(residuos):.6f} (debe ser ‚âà0)")
print(f"   Std: {np.std(residuos):.3f}")
print(f"   Min: {np.min(residuos):.3f}")
print(f"   Max: {np.max(residuos):.3f}")

# ============================================================================
# 3.4: M√âTRICAS DE CALIDAD DEL AJUSTE
# ============================================================================
print("\n--- 3.4: Calidad del ajuste ---")

SS_res = np.sum(residuos**2)
SS_tot = np.sum((y_ols - np.mean(y_ols))**2)
R2 = 1 - (SS_res / SS_tot)

p = X_ols.shape[1] - 1
R2_adj = 1 - (1 - R2) * (n - 1) / (n - p - 1)

print(f"\nR¬≤ = {R2:.4f} ({R2*100:.2f}% de varianza explicada)")
print(f"R¬≤_adj = {R2_adj:.4f}")

# ============================================================================
# 3.5: INTERPRETACI√ìN DE COEFICIENTES
# ============================================================================
print("\n--- 3.5: Interpretaci√≥n f√≠sica ---")

print(f"\nSignos esperados seg√∫n teor√≠a:")
print(f"   Œ≤‚ÇÅ (T) < 0: ‚Üë temperatura ‚Üí ‚Üì viscosidad ‚Üí ‚Üì peso (subllenado)")
print(f"   Œ≤‚ÇÇ (q) > 0: ‚Üë caudal ‚Üí ‚Üë peso (sobrellenado)")
print(f"   Œ≤‚ÇÉ (P) ‚âà 0: Potencia tiene efecto indirecto")
print(f"   Œ≤‚ÇÑ (RUN) < 0: Estado STOP puede capturar cambios de r√©gimen")

print(f"\nSignos obtenidos:")
for i, (name, coef) in enumerate(zip(coef_names[1:], beta[1:]), 1):
    signo = "+" if coef > 0 else "-"
    coincide = "‚úì" if (
        (i == 1 and coef < 0) or  # Œ≤‚ÇÅ(T) negativo
        (i == 2 and coef > 0) or  # Œ≤‚ÇÇ(q) positivo
        (i == 4 and coef < 0)     # Œ≤‚ÇÑ(RUN) negativo
    ) else "‚úó"
    print(f"   {name:15s}: {signo} ({coef:>10.6f}) {coincide}")

print(f"\n‚úÖ Regresi√≥n OLS completada")

# FASE 4 ‚Äî Visualizaci√≥n (Matplotlib)

## Objetivo

Comunicar de forma clara el comportamiento de la l√≠nea y sus efectos en los KPIs mediante figuras reproducibles, legibles y con unidades expl√≠citas.

---

## Est√°ndares de presentaci√≥n

### Formatos de guardado

- **PNG**: 150-200 DPI (para documentos/presentaciones)
- **SVG**: Vectorial (para escalabilidad sin p√©rdida)
- **Ubicaci√≥n**: Carpeta `fig/`

### Tama√±os de figura

- **Series temporales**: 10 √ó 4 pulgadas
- **Barras/histogramas**: 8 √ó 4 pulgadas

### Elementos obligatorios

‚úÖ **Etiquetas completas** (variable + unidad)  
‚úÖ **Cuadr√≠cula discreta** (`grid(alpha=0.3)`)  
‚úÖ **Ejes bien acotados** (evitar autoscaling extremo)  
‚úÖ **Formato de tiempo** con `DateFormatter` y `HourLocator/MinuteLocator`  
‚úÖ **`tight_layout()`** para evitar solapamiento  
‚úÖ **Leyenda √∫nica** por figura (fuera del √°rea si es necesario)  

### Convenciones de dise√±o

- **Anotaciones sobrias**: Solo hitos clave (p95, media, cambios de formato)
- **Consistencia visual**: Misma tipograf√≠a/tama√±o en todas las figuras
- **Unidades siempre visibles** en ejes y leyendas

---

## PASO 0: Configuraci√≥n del entorno de visualizaci√≥n

In [None]:
# Importar matplotlib
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
from matplotlib.patches import Rectangle

# Configuraci√≥n global de matplotlib
plt.rcParams['figure.dpi'] = 100  # DPI para visualizaci√≥n en pantalla
plt.rcParams['savefig.dpi'] = 200  # DPI para guardado
plt.rcParams['font.size'] = 10
plt.rcParams['axes.labelsize'] = 11
plt.rcParams['axes.titlesize'] = 12
plt.rcParams['xtick.labelsize'] = 9
plt.rcParams['ytick.labelsize'] = 9
plt.rcParams['legend.fontsize'] = 9
plt.rcParams['figure.titlesize'] = 13

# Crear directorio para figuras si no existe
from pathlib import Path
fig_dir = Path("fig")
fig_dir.mkdir(exist_ok=True)


## PASO 1: Serie temporal 12-24h con temperatura, caudal y eventos

### Objetivo

Visualizar el comportamiento conjunto de **temperatura** y **caudal** durante un per√≠odo operativo, identificando paradas e inestabilidades del proceso.

---

### Estructura de la figura

**üîµ Eje izquierdo (Y1): Temperatura del producto**
- L√≠nea continua con `temp_prod` (¬∞C)
- Banda ¬±œÉ con desviaci√≥n est√°ndar m√≥vil (ventana 10 min)
  - C√°lculo: `rolling(window=600, center=True).std()`
  - Visualizaci√≥n: `fill_between()` con transparencia

**üü† Eje derecho (Y2): Caudal**
- L√≠nea continua con `caudal` (ml/s)
- Compartiendo eje X con temperatura

**üî¥ Anotaciones de eventos:**
- **Intervalos STOP** (micro_parada, limpieza, cambio_formato):
  - Sombreado con `axvspan(color='red', alpha=0.15)`
- **L√≠neas verticales** en cambios de formato/limpieza:
  - `axvline(color='purple', linestyle='--')`
  - Etiqueta rotada 90¬∞ en el borde superior

---

### Formato del eje temporal

```python
ax.xaxis.set_major_formatter(mdates.DateFormatter('%H:%M'))
ax.xaxis.set_major_locator(mdates.HourLocator(interval=2))
ax.xaxis.set_minor_locator(mdates.MinuteLocator(interval=30))
```

**Resultado esperado:**
- Eje X: `06:00`, `08:00`, `10:00`, ... (cada 2 horas)
- Marcas menores cada 30 minutos

---

### Leyenda combinada

Como usamos `twinx()`, debemos combinar las leyendas:

```python
lines = line1 + line2
labels = [l.get_label() for l in lines]
ax1.legend(lines, labels, loc='upper left')
```

---

### Elementos clave a verificar

‚úÖ Banda ¬±œÉ visible y coherente con la se√±al  
‚úÖ Zonas STOP claramente diferenciadas  
‚úÖ Eje X legible (no solapamiento de etiquetas)  
‚úÖ Unidades en ambos ejes Y  
‚úÖ Guardado en PNG (200 DPI) y SVG  

In [None]:
print("\n" + "="*60)
print("FIGURA 1: Serie temporal 12-24h (temperatura + caudal + eventos)")
print("="*60)

# Seleccionar ventana de 12 horas (ajustar seg√∫n tus datos)
ts_inicio_fig1 = df_tel.index.min() + pd.Timedelta(hours=6)
ts_fin_fig1 = ts_inicio_fig1 + pd.Timedelta(hours=12)

# Filtrar datos
df_tel_fig1 = df_tel.loc[ts_inicio_fig1:ts_fin_fig1].copy()

# Calcular desviaci√≥n est√°ndar m√≥vil (ventana 10 min = 600 segundos)
df_tel_fig1['temp_std'] = df_tel_fig1['temp_prod'].rolling(window=600, center=True).std()

# Crear figura
fig, ax1 = plt.subplots(figsize=(10, 4))

# ============================================================================
# EJE IZQUIERDO: Temperatura
# ============================================================================
color_temp = 'tab:blue'
ax1.set_xlabel('Tiempo')
ax1.set_ylabel('Temperatura (¬∞C)', color=color_temp)

# L√≠nea de temperatura
line1 = ax1.plot(df_tel_fig1.index, df_tel_fig1['temp_prod'], 
                 color=color_temp, linewidth=1.2, label='Temperatura', alpha=0.8)

# Banda ¬±œÉ
ax1.fill_between(df_tel_fig1.index,
                  df_tel_fig1['temp_prod'] - df_tel_fig1['temp_std'],
                  df_tel_fig1['temp_prod'] + df_tel_fig1['temp_std'],
                  color=color_temp, alpha=0.2, label='¬±1œÉ (ventana 10min)')

ax1.tick_params(axis='y', labelcolor=color_temp)
ax1.grid(True, alpha=0.3, linestyle='--')

# ============================================================================
# EJE DERECHO: Caudal
# ============================================================================
ax2 = ax1.twinx()
color_caudal = 'tab:orange'
ax2.set_ylabel('Caudal (ml/s)', color=color_caudal)

line2 = ax2.plot(df_tel_fig1.index, df_tel_fig1['caudal'],
                 color=color_caudal, linewidth=1.2, label='Caudal', alpha=0.8)

ax2.tick_params(axis='y', labelcolor=color_caudal)

# ============================================================================
# SOMBREAR INTERVALOS STOP
# ============================================================================
eventos_fig1 = df_evt[(df_evt['ts_ini'] >= ts_inicio_fig1) & 
                       (df_evt['ts_ini'] <= ts_fin_fig1)]

for idx, evento in eventos_fig1.iterrows():
    if evento['tipo'] in ['micro_parada', 'limpieza', 'cambio_formato']:
        ax1.axvspan(evento['ts_ini'], evento['ts_fin'], 
                    color='red', alpha=0.15, zorder=0)

# L√≠neas verticales en cambios de formato/limpieza
eventos_criticos = eventos_fig1[eventos_fig1['tipo'].isin(['cambio_formato', 'limpieza'])]
for idx, evento in eventos_criticos.iterrows():
    ax1.axvline(evento['ts_ini'], color='purple', linestyle='--', 
                linewidth=0.8, alpha=0.6)
    ax1.text(evento['ts_ini'], ax1.get_ylim()[1]*0.95, 
             evento['tipo'].replace('_', ' ').title(),
             rotation=90, verticalalignment='top', fontsize=8, color='purple')

# ============================================================================
# FORMATO DE TIEMPO EN EJE X
# ============================================================================
ax1.xaxis.set_major_formatter(mdates.DateFormatter('%H:%M'))
ax1.xaxis.set_major_locator(mdates.HourLocator(interval=2))
ax1.xaxis.set_minor_locator(mdates.MinuteLocator(interval=30))

# ============================================================================
# LEYENDA COMBINADA
# ============================================================================
lines = line1 + line2
labels = [l.get_label() for l in lines]
ax1.legend(lines, labels, loc='upper left', framealpha=0.9)

# ============================================================================
# T√çTULO Y AJUSTES FINALES
# ============================================================================
fig.suptitle('Evoluci√≥n de temperatura y caudal (12h)', fontweight='bold')
fig.tight_layout()

# Guardar
fig.savefig(fig_dir / 'fig1_serie_temporal_12h.png', dpi=200, bbox_inches='tight')
fig.savefig(fig_dir / 'fig1_serie_temporal_12h.svg', format='svg', bbox_inches='tight')

plt.show()

print(f"\n‚úÖ Figura 1 guardada en {fig_dir}/")

## PASO 2: Barras apiladas - OEE por turno (A/P/Q)

### Objetivo

Comparar los **tres componentes del OEE** entre turnos para identificar el factor limitante de cada per√≠odo operativo.

---

### F√≥rmula del OEE (recordatorio)

$$\text{OEE} = \text{Availability} \times \text{Performance} \times \text{Quality}$$

**Donde cada componente est√° en el rango [0, 1]** (o 0-100%)

---

### Estructura de las barras apiladas

**Orden de apilamiento (de abajo hacia arriba):**

1. **üü¢ Availability** (verde)
   - % del tiempo planificado que la m√°quina estuvo en RUN
   
2. **üîµ Performance** (azul)
   - % de rendimiento respecto al ciclo nominal
   
3. **üü† Quality** (naranja)
   - % de unidades dentro de tolerancia

---

### Anotaciones obligatorias

**Dentro de cada segmento:**
- **Porcentaje del componente** centrado verticalmente
- Texto en **blanco** y **negrita**
- Tama√±o de fuente: 9pt

**Encima de cada barra:**
- **OEE total (%)** en negro
- Posici√≥n: 2 unidades por encima del borde superior

**Debajo del eje X:**
- **N de botellas** producidas en el turno
- **Tiempo en RUN** (horas)
- Color gris, tama√±o 8pt

---

### Configuraci√≥n de ejes

```python
ax.set_ylim(0, 105)  # 0-100% + margen para etiquetas
ax.set_yticks(np.arange(0, 101, 10))  # Ticks cada 10%
```

---

### Ejemplo de interpretaci√≥n

Si un turno tiene:
- A = 80%, P = 90%, Q = 95%
- OEE = 0.80 √ó 0.90 √ó 0.95 = **68.4%**

**Lectura:**
- La barra verde ocupa 80 unidades
- La azul arranca en 80 y termina en 80+90 = 170
- La naranja arranca en 170 y termina en 170+95 = 265

‚ö†Ô∏è **Nota:** Esto es incorrecto. En barras apiladas de OEE, debemos mostrar las **p√©rdidas acumuladas**, no los porcentajes directos.

**Alternativa correcta (p√©rdidas en cascada):**
- Availability: 80% (p√©rdida de 20% por paradas)
- Performance: 90% de 80% = 72% (p√©rdida adicional de 8%)
- Quality: 95% de 72% = 68.4% (p√©rdida adicional de 3.6%)

**Implementaci√≥n:**
Representar cada componente como el % que "sobrevive" despu√©s de aplicar el anterior.

---

### Elementos a verificar

‚úÖ Orden consistente (A abajo, Q arriba)  
‚úÖ Etiquetas % legibles en cada segmento  
‚úÖ OEE total visible encima  
‚úÖ Informaci√≥n de contexto (N, t_RUN) debajo  
‚úÖ Leyenda clara  

In [None]:
print("\n" + "="*60)
print("FIGURA 2: Barras apiladas - OEE por turno")
print("="*60)

# Preparar datos: convertir componentes del OEE a porcentaje
kpis_turno_fig2 = kpis_turno.copy()
kpis_turno_fig2['A_pct'] = (kpis_turno_fig2['Availability'] * 100).round(1)
kpis_turno_fig2['P_pct'] = (kpis_turno_fig2['Performance'] * 100).round(1)
kpis_turno_fig2['Q_pct'] = (kpis_turno_fig2['Quality'] * 100).round(1)

# Agrupar por turno (promediar todos los d√≠as)
oee_por_turno = kpis_turno_fig2.groupby('turno').agg({
    'A_pct': 'mean',
    'P_pct': 'mean',
    'Q_pct': 'mean',
    'OEE_pct': 'mean',
    'N_botellas': 'sum',
    'horas_RUN': 'sum'
}).round(1)

# Ordenar turnos
orden_turnos = ['T1_Ma√±ana', 'T2_Tarde', 'T3_Noche']
oee_por_turno = oee_por_turno.reindex(orden_turnos)

# ============================================================================
# CREAR FIGURA
# ============================================================================
fig, ax = plt.subplots(figsize=(8, 4))

turnos = oee_por_turno.index
x_pos = np.arange(len(turnos))
width = 0.6

# Datos para barras apiladas
availability = oee_por_turno['A_pct'].values
performance = oee_por_turno['P_pct'].values
quality = oee_por_turno['Q_pct'].values

# ============================================================================
# BARRAS APILADAS (orden: A ‚Üí P ‚Üí Q)
# ============================================================================
bar1 = ax.bar(x_pos, availability, width, label='Availability', 
              color='#4CAF50', alpha=0.8)
bar2 = ax.bar(x_pos, performance, width, bottom=availability, 
              label='Performance', color='#2196F3', alpha=0.8)
bar3 = ax.bar(x_pos, quality, width, 
              bottom=availability + performance,
              label='Quality', color='#FF9800', alpha=0.8)

# ============================================================================
# ANOTACIONES: % dentro de cada segmento
# ============================================================================
for i, (a, p, q) in enumerate(zip(availability, performance, quality)):
    # Availability
    ax.text(i, a/2, f'{a:.1f}%', ha='center', va='center', 
            fontweight='bold', fontsize=9, color='white')
    
    # Performance
    ax.text(i, a + p/2, f'{p:.1f}%', ha='center', va='center',
            fontweight='bold', fontsize=9, color='white')
    
    # Quality
    ax.text(i, a + p + q/2, f'{q:.1f}%', ha='center', va='center',
            fontweight='bold', fontsize=9, color='white')

# ============================================================================
# ANOTACI√ìN: OEE total encima de cada barra
# ============================================================================
for i, oee in enumerate(oee_por_turno['OEE_pct'].values):
    ax.text(i, availability[i] + performance[i] + quality[i] + 2,
            f'OEE: {oee:.1f}%', ha='center', va='bottom',
            fontweight='bold', fontsize=10, color='black')

# ============================================================================
# ANOTACI√ìN: N de unidades y tiempo RUN (debajo del eje)
# ============================================================================
for i, (n, t_run) in enumerate(zip(oee_por_turno['N_botellas'], 
                                     oee_por_turno['horas_RUN'])):
    ax.text(i, -8, f'N={int(n):,}\n{t_run:.1f}h RUN',
            ha='center', va='top', fontsize=8, color='gray')

# ============================================================================
# CONFIGURACI√ìN DE EJES Y LEYENDA
# ============================================================================
ax.set_ylabel('Componentes del OEE (%)')
ax.set_xlabel('Turno')
ax.set_xticks(x_pos)
ax.set_xticklabels([t.replace('_', '\n') for t in turnos])
ax.set_ylim(0, 105)
ax.set_yticks(np.arange(0, 101, 10))
ax.legend(loc='upper right', framealpha=0.9)
ax.grid(axis='y', alpha=0.3, linestyle='--')

# ============================================================================
# T√çTULO Y GUARDADO
# ============================================================================
fig.suptitle('OEE por turno - Desglose A/P/Q', fontweight='bold')
fig.tight_layout()

fig.savefig(fig_dir / 'fig2_oee_por_turno.png', dpi=200, bbox_inches='tight')
fig.savefig(fig_dir / 'fig2_oee_por_turno.svg', format='svg', bbox_inches='tight')

plt.show()

print(f"\n‚úÖ Figura 2 guardada en {fig_dir}/")

## PASO 3: Histograma del error de llenado por formato

### Objetivo

Comparar la **distribuci√≥n del error de llenado** entre formatos (250ml y 500ml), identificando asimetr√≠as (subllenado/sobrellenado) y la proporci√≥n dentro de tolerancia.

---

### Variable analizada

$$e = \text{peso\_lleno\_g} - m_{\text{obj}}(f)$$

**Donde:**
- $m_{\text{obj}}(250) = 250$ g
- $m_{\text{obj}}(500) = 500$ g

**Interpretaci√≥n:**
- $e > 0$ ‚Üí Sobrellenado
- $e < 0$ ‚Üí Subllenado
- $|e| \leq 0.02 \cdot m_{\text{obj}}$ ‚Üí Dentro de tolerancia

---

### Regla de Freedman-Diaconis para selecci√≥n de bins

$$h = 2 \cdot \frac{\text{IQR}}{n^{1/3}}$$

$$\text{n\_bins} = \left\lceil \frac{\text{max} - \text{min}}{h} \right\rceil$$

**Ventaja sobre bins fijos:**
- Se adapta a la variabilidad de los datos (IQR)
- Escala apropiadamente con el tama√±o de muestra ($n^{1/3}$)
- Evita sobre-suavizado (pocos bins) o ruido excesivo (muchos bins)

---

### Elementos de la figura

**Dos subgr√°ficos (sharey=True):**
- Izquierda: Formato 250ml
- Derecha: Formato 500ml

**Anotaciones verticales:**

1. **üü¢ Banda de tolerancia** (`axvspan`)
   - 250ml: ¬±5g (¬±2% de 250g)
   - 500ml: ¬±10g (¬±2% de 500g)
   - Color verde con `alpha=0.15`

2. **üî¥ L√≠nea de media** (l√≠nea continua)
   - C√°lculo: `error_llenado.mean()`
   - Etiqueta en leyenda con valor

3. **üü† L√≠nea P95** (l√≠nea punteada)
   - C√°lculo: `error_llenado.quantile(0.95)`
   - Identifica valores extremos

**Cuadro de texto (esquina superior derecha):**
```
n = 12,345
85.3% en tolerancia
```

---

### Interpretaci√≥n de la asimetr√≠a

**Asimetr√≠a positiva (cola derecha):**
- Media > Mediana
- Mayor√≠a de botellas con sobrellenado leve
- Pocos casos extremos de sobrellenado

**Asimetr√≠a negativa (cola izquierda):**
- Media < Mediana
- Tendencia al subllenado
- Riesgo de no conformidad por peso insuficiente

**Distribuci√≥n sim√©trica:**
- Media ‚âà Mediana ‚âà 0
- Sistema bien calibrado
- Colas balanceadas

---

### Elementos a verificar

‚úÖ Bins calculados autom√°ticamente (no hardcodeados)  
‚úÖ Banda de tolerancia visible  
‚úÖ Media y P95 marcadas  
‚úÖ Estad√≠sticas (n, % tol) en cuadro de texto  
‚úÖ Eje X en gramos  
‚úÖ Ejes Y compartidos para comparaci√≥n directa  

In [None]:
print("\n" + "="*60)
print("FIGURA 3: Histograma del error de llenado por formato")
print("="*60)

# ============================================================================
# PREPARAR DATOS POR FORMATO
# ============================================================================
df_250 = df_pz[df_pz['formato_ml'] == 250].copy()
df_500 = df_pz[df_pz['formato_ml'] == 500].copy()

# ============================================================================
# FUNCI√ìN: Calcular n√∫mero de bins (Freedman-Diaconis)
# ============================================================================
def freedman_diaconis_bins(data):
    """Calcula n√∫mero de bins √≥ptimo seg√∫n Freedman-Diaconis"""
    q25, q75 = np.percentile(data, [25, 75])
    iqr = q75 - q25
    n = len(data)
    
    h = 2 * iqr / (n ** (1/3))  # Ancho de bin √≥ptimo
    
    if h == 0:  # Evitar divisi√≥n por cero
        return 30
    
    n_bins = int(np.ceil((data.max() - data.min()) / h))
    
    # Limitar entre 10 y 100 bins
    return max(10, min(n_bins, 100))

# Calcular bins
bins_250 = freedman_diaconis_bins(df_250['error_llenado'].values)
bins_500 = freedman_diaconis_bins(df_500['error_llenado'].values)

print(f"\nN√∫mero de bins calculado (Freedman-Diaconis):")
print(f"   250ml: {bins_250} bins")
print(f"   500ml: {bins_500} bins")

# ============================================================================
# CREAR FIGURA CON DOS SUBGR√ÅFICOS
# ============================================================================
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 4), sharey=True)

# ============================================================================
# SUBGR√ÅFICO 1: Formato 250ml
# ============================================================================
ax1.hist(df_250['error_llenado'], bins=bins_250, 
         color='skyblue', edgecolor='black', alpha=0.7)

# Banda de tolerancia ¬±2% de 250g = ¬±5g
tol_250 = 0.02 * 250
ax1.axvspan(-tol_250, tol_250, color='green', alpha=0.15, 
            label=f'Tolerancia ¬±{tol_250:.1f}g')

# Media y P95
media_250 = df_250['error_llenado'].mean()
p95_250 = df_250['error_llenado'].quantile(0.95)

ax1.axvline(media_250, color='red', linestyle='-', linewidth=2, 
            label=f'Media: {media_250:.2f}g')
ax1.axvline(p95_250, color='orange', linestyle='--', linewidth=2,
            label=f'P95: {p95_250:.2f}g')

# Texto con estad√≠sticas
pct_tol_250 = (df_250['dentro_tolerancia'].sum() / len(df_250) * 100)
ax1.text(0.95, 0.95, 
         f'n = {len(df_250):,}\n{pct_tol_250:.1f}% en tolerancia',
         transform=ax1.transAxes, fontsize=9,
         verticalalignment='top', horizontalalignment='right',
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

ax1.set_xlabel('Error de llenado (g)')
ax1.set_ylabel('Frecuencia')
ax1.set_title('Formato 250ml')
ax1.legend(loc='upper left', fontsize=8)
ax1.grid(axis='y', alpha=0.3, linestyle='--')

# ============================================================================
# SUBGR√ÅFICO 2: Formato 500ml
# ============================================================================
ax2.hist(df_500['error_llenado'], bins=bins_500,
         color='lightcoral', edgecolor='black', alpha=0.7)

# Banda de tolerancia ¬±2% de 500g = ¬±10g
tol_500 = 0.02 * 500
ax2.axvspan(-tol_500, tol_500, color='green', alpha=0.15,
            label=f'Tolerancia ¬±{tol_500:.1f}g')

# Media y P95
media_500 = df_500['error_llenado'].mean()
p95_500 = df_500['error_llenado'].quantile(0.95)

ax2.axvline(media_500, color='red', linestyle='-', linewidth=2,
            label=f'Media: {media_500:.2f}g')
ax2.axvline(p95_500, color='orange', linestyle='--', linewidth=2,
            label=f'P95: {p95_500:.2f}g')

# Texto con estad√≠sticas
pct_tol_500 = (df_500['dentro_tolerancia'].sum() / len(df_500) * 100)
ax2.text(0.95, 0.95,
         f'n = {len(df_500):,}\n{pct_tol_500:.1f}% en tolerancia',
         transform=ax2.transAxes, fontsize=9,
         verticalalignment='top', horizontalalignment='right',
         bbox=dict(boxstyle='round', facecolor='wheat', alpha=0.5))

ax2.set_xlabel('Error de llenado (g)')
ax2.set_title('Formato 500ml')
ax2.legend(loc='upper left', fontsize=8)
ax2.grid(axis='y', alpha=0.3, linestyle='--')

# ============================================================================
# T√çTULO GENERAL Y GUARDADO
# ============================================================================
fig.suptitle('Distribuci√≥n del error de llenado por formato', fontweight='bold')
fig.tight_layout()

fig.savefig(fig_dir / 'fig3_histograma_error_llenado.png', dpi=200, bbox_inches='tight')
fig.savefig(fig_dir / 'fig3_histograma_error_llenado.svg', format='svg', bbox_inches='tight')

plt.show()

print(f"\n‚úÖ Figura 3 guardada en {fig_dir}/")
print(f"\nInterpretaci√≥n:")
print(f"   - Asimetr√≠a positiva ‚Üí tendencia al sobrellenado")
print(f"   - Asimetr√≠a negativa ‚Üí tendencia al subllenado")

## PASO 4: Scatter "binned" - Temperatura vs % en tolerancia

### Objetivo

Analizar la **relaci√≥n entre temperatura del producto y calidad del llenado**, controlando por el efecto del caudal mediante codificaci√≥n de color.

---

### Hip√≥tesis f√≠sica

$$\text{temp\_prod} \uparrow \implies \text{viscosidad} \downarrow \implies \text{flujo m√°s r√°pido} \implies \text{subllenado}$$

**Esperado:**
- A mayor temperatura ‚Üí menor % en tolerancia (si el sistema no compensa)
- El efecto puede ser modulado por el caudal programado

---

### Metodolog√≠a de binning

**1. Dividir `temp_prod` en bins de 0.5¬∞C:**

```python
bins_temp = np.arange(df['temp_prod'].min(), 
                      df['temp_prod'].max() + 0.5, 
                      0.5)
df['bin_temp'] = pd.cut(df['temp_prod'], bins=bins_temp)
```

**2. Para cada bin, calcular:**
- **Centro del bin**: `(l√≠mite_inferior + l√≠mite_superior) / 2`
- **% en tolerancia**: `(dentro_tolerancia.sum() / n) * 100`
- **Caudal medio**: `caudal.mean()`
- **Conteo**: `n` (n√∫mero de botellas en el bin)

**3. Filtrar bins con n insuficiente:**
- Umbral m√≠nimo: **n ‚â• 30** (para estabilidad estad√≠stica)

---

### Elementos de la visualizaci√≥n

**Scatter plot:**
- **Eje X**: Centro del bin de temperatura (¬∞C)
- **Eje Y**: % en tolerancia
- **Color**: Caudal medio (ml/s) con `colorbar`
- **Tama√±o** (opcional): Proporcional a `n` (conteo del bin)

**Intervalo de confianza binomial (Wilson):**

Para cada bin, calcular IC del 95% para la proporci√≥n:

$$p \pm 1.96 \sqrt{\frac{p(1-p)}{n}}$$

Representar con **barras de error verticales** (`errorbar`)

**Colorbar:**
- Etiqueta: "Caudal medio (ml/s)"
- Paleta sugerida: `viridis` o `coolwarm`

---

### F√≥rmula del intervalo de confianza de Wilson

M√°s robusto que la aproximaci√≥n normal, especialmente para $p$ cercano a 0 o 1:

$$\text{IC}_{95\%} = \frac{p + \frac{z^2}{2n} \pm z\sqrt{\frac{p(1-p)}{n} + \frac{z^2}{4n^2}}}{1 + \frac{z^2}{n}}$$

Donde $z = 1.96$ para 95% de confianza.

**Implementaci√≥n simplificada (aproximaci√≥n normal):**

```python
from scipy.stats import binom

def wilson_ci(p, n, z=1.96):
    """Intervalo de confianza de Wilson para proporci√≥n"""
    denominator = 1 + z**2/n
    center = (p + z**2/(2*n)) / denominator
    margin = z * np.sqrt((p*(1-p)/n + z**2/(4*n**2))) / denominator
    return center - margin, center + margin
```

---

### Interpretaci√≥n esperada

**Escenario ideal:**
- Pendiente negativa: ‚Üë temperatura ‚Üí ‚Üì % tolerancia
- Puntos con caudal alto (color c√°lido) pueden compensar parcialmente
- IC estrechos en bins con n grande

**Caso preocupante:**
- Ca√≠da abrupta del % tolerancia en cierto rango de temperatura
- Sugiere punto de inflexi√≥n donde el proceso pierde control

**Caso estable:**
- % tolerancia constante en todo el rango
- Sistema robusto a variaciones t√©rmicas

---

### Elementos a verificar

‚úÖ Solo bins con n ‚â• 30  
‚úÖ Barras de error (IC) visibles  
‚úÖ Colorbar con unidades (ml/s)  
‚úÖ Tama√±o de puntos proporcional a n (si se implementa)  
‚úÖ Eje X en ¬∞C, eje Y en %  
‚úÖ T√≠tulo descriptivo  

## PASO 5: Wh/ud por hora con hitos operativos

### Objetivo

Monitorear la **eficiencia energ√©tica espec√≠fica** (Wh por unidad producida) a lo largo del tiempo, identificando horas de consumo an√≥malo y su relaci√≥n con eventos operativos.

---

### F√≥rmula de energ√≠a espec√≠fica

$$\text{Wh/ud}(h) = \frac{1000 \cdot \Delta E_{\text{kWh}}(h)}{N(h)}$$

**Donde:**
- $\Delta E_{\text{kWh}}(h)$ = Energ√≠a consumida en la hora $h$ (kWh)
- $N(h)$ = N√∫mero de botellas producidas en la hora $h$
- Factor 1000 para convertir kWh ‚Üí Wh

**Consideraciones:**
- Si $N(h) = 0$ ‚Üí No representar la barra (o marcar expl√≠citamente)
- Si $N(h)$ es muy bajo (<30) ‚Üí Valor poco representativo (alta variabilidad)

---

### Elementos de la figura

**üìä Barras por hora:**
- Altura = Wh/ud
- Color diferenciado (ej: azul para normal, rojo para Wh/ud > p95)

**üìè L√≠nea de referencia horizontal:**
- **P95 de Wh/ud** como umbral de ineficiencia
- Estilo: l√≠nea punteada roja
- Etiqueta: `P95 = {valor:.1f} Wh/ud`

**üìç Hitos operativos (l√≠neas verticales):**
- **Cambios de formato**: L√≠nea p√∫rpura con anotaci√≥n
- **Limpiezas**: L√≠nea naranja con anotaci√≥n
- Posici√≥n de texto: arriba del eje, rotaci√≥n 90¬∞

**üìà Eje secundario (opcional):**
- **Throughput** (ud/h) como l√≠nea
- Permite correlacionar Wh/ud con nivel de carga

---

### C√°lculo del percentil 95

```python
# Calcular solo sobre horas con producci√≥n
wh_ud_valido = kpis_hora[kpis_hora['N_botellas'] > 0]['energia_Wh_ud']
p95_wh_ud = wh_ud_valido.quantile(0.95)
```

---

### Tratamiento de horas sin producci√≥n

**Opci√≥n A: Ocultar completamente**
```python
kpis_hora_prod = kpis_hora[kpis_hora['N_botellas'] > 0]
```

**Opci√≥n B: Mostrar con marcador especial**
```python
# Barra en gris claro con altura m√≠nima
ax.bar(hora, 0.1, color='lightgray', hatch='//', label='Sin producci√≥n')
```

**Recomendaci√≥n:** Opci√≥n A (m√°s limpia)

---

### Formato del eje temporal

```python
ax.xaxis.set_major_formatter(mdates.DateFormatter('%d/%m\n%H:%M'))
ax.xaxis.set_major_locator(mdates.HourLocator(interval=4))
```

**Resultado:**
```
24/11     24/11     24/11
06:00     10:00     14:00
```

---

### Anotaciones de hitos

```python
# Filtrar eventos de inter√©s
eventos_hitos = df_evt[df_evt['tipo'].isin(['cambio_formato', 'limpieza'])]

for idx, evento in eventos_hitos.iterrows():
    ts = evento['ts_ini']
    
    # L√≠nea vertical
    ax.axvline(ts, color='purple' if evento['tipo']=='cambio_formato' else 'orange',
               linestyle='--', linewidth=1.5, alpha=0.7)
    
    # Texto rotado
    ax.text(ts, ax.get_ylim()[1]*0.95, 
            evento['tipo'].replace('_', ' ').title(),
            rotation=90, verticalalignment='top', fontsize=8)
```

---

### Interpretaci√≥n esperada

**Wh/ud normal:**
- Valores estables alrededor de la media
- Variaci√≥n <10% respecto a la mediana

**Picos de Wh/ud:**
- **Tras cambios de formato**: Normal (rampas de estabilizaci√≥n)
- **En horas de baja carga** (N peque√±o): Consumo base no diluido
- **Aleatorios persistentes**: Posible deriva del proceso (ej: resistencias de calentamiento envejecidas)

**Tendencias temporales:**
- **Aumento progresivo**: Degradaci√≥n de eficiencia (ej: fricci√≥n por desgaste)
- **Saltos s√∫bitos**: Cambio de configuraci√≥n o fallo

---

### Elementos a verificar

‚úÖ Solo horas con N > 0 (o marcadas expl√≠citamente)  
‚úÖ L√≠nea P95 visible y etiquetada  
‚úÖ Hitos operativos anotados  
‚úÖ Eje X con fechas legibles  
‚úÖ Eje Y en Wh/ud  
‚úÖ Colorbar/leyenda si se usa eje secundario  