


# __Recovery Boiler Models__ 




## __Problema de Negocio__: Optimización del % de Reducción en la Caldera Recuperadora

En el proceso de producción de celulosa, la eficiencia de la caldera recuperadora es un factor crítico tanto desde el punto de vista económico como ambiental. El **% de reducción** de la caldera, que mide la transformación de compuestos inorgánicos como sulfato de sodio (Na₂SO₄) a sulfuro de sodio (Na₂S), es un indicador clave de rendimiento. Sin embargo, mantener un alto % de reducción es un desafío debido a las variaciones en las condiciones de operación, la calidad del licor negro y otros factores del proceso. 

Actualmente, la planta carece de una herramienta predictiva que permita anticipar y optimizar el comportamiento del **% de reducción** en tiempo real. Esto limita la capacidad de la planta para:

1. **Maximizar la recuperación de químicos:** Incrementar la eficiencia del ciclo de recuperación química para reducir la dependencia de reactivos externos.
2. **Optimizar el uso de energía:** Mejorar la generación de vapor y la autosuficiencia energética de la planta.
3. **Reducir costos operativos:** Minimizar el gasto en reactivos químicos y el mantenimiento no planificado de la caldera.
4. **Promover la sostenibilidad:** Reducir el impacto ambiental mediante un mejor control del proceso.

### __Objetivo del Modelo de Machine Learning__

Desarrollar un modelo de machine learning que prediga el **% de reducción** de la caldera recuperadora con base en datos históricos y en tiempo real de parámetros operativos como:

- Composición del licor negro.
- Temperatura.
- Presión.
- Flujo y otros datos relevantes.

El modelo permitirá:

- Identificar condiciones subóptimas y ajustar las variables operativas en tiempo real.
- Reducir costos operativos al optimizar el uso de reactivos y energía.
- Mejorar la sostenibilidad del proceso al maximizar la eficiencia química y energética.
- Ofrecer una herramienta de soporte a los operadores para tomar decisiones informadas y mantener la estabilidad del ciclo químico.

Este modelo se integrará como parte del sistema de monitoreo y control, ayudando a la planta a alcanzar sus objetivos de eficiencia económica y ambiental.

# Descripción de las Variables

### Variables Temporales

1. `datetime`: fecha y hora de cada medición.

---

### Variables Operativas

2. `Carga [TSS/d]`: Cantidad de sólidos secos totales alimentados a la caldera.

3. `Solidos a quemado [%]`: Porcentaje de sólidos secos en el licor negro hacia caldera.

4. `Temperatura LN a boquillas [°C]`: Temperatura del licor negro a las boquillas de la caldera.

5. `Flujo agua alimentacion [t/h]`: Cantidad de agua alimentada a la caldera.

6. `Temperatura de salida vapor [°C]`: Temperatura del vapor generado a la salida de la caldera.

7. `gen_vapor [ton/h]`: Generación de vapor.

8. `press_hogar [kPa]`: Presión en el hogar de la caldera.

---

### Coeficientes de Transferencia de Calor

09. `heat_coef_SH1 [kJ/m²°C]`: Coeficiente de transferencia de calor en el primer sobrecalentador.

10. `heat_coef_SH2 [kJ/m²°C]`: Coeficiente de transferencia de calor en el segundo sobrecalentador.

11. `heat_coef_SH3 [kJ/m²°C]`: Coeficiente de transferencia de calor en el tercer sobrecalentador.

12. `heat_coef_SH4 [kJ/m²°C]`: Coeficiente de transferencia de calor en el cuarto sobrecalentador.

---

### Indicadores Químicos y de Reducción

13. `reduction_ins [%]`: Porcentaje de reducción instantáneo medido en tiempo real.

14. `alcali_lv_ins [g/L]`: Concentración de álcali en licor verde medida instantáneamente.

15. `sulfidez_ins [%]`: Porcentaje de sulfidez en el licor verde medido instantáneamente.

---

### Contaminantes en Gases de Combustión

16. `NOx [mg/Nm³]`: Concentración de óxidos de nitrógeno en los gases de combustión.

17. `Material particulado [mg/Nm³]`: Concentración de partículas sólidas en los gases de combustión.

18. `SO2 [mg/Nm³]`: Concentración de dióxido de azufre en los gases de combustión.

19. `TRS [mg/Nm³]`: Concentración de compuestos reducidos de azufre en los gases de combustión.

20. `CO [mg/Nm³]`: Concentración de monóxido de carbono en los gases de combustión.

---

### Indicadores de Oxígeno y Monóxido de Carbono

21. `O2_cont_left [%]`: Porcentaje de oxígeno en la sección izquierda de la caldera.

22. `O2_cont_center [%]`: Porcentaje de oxígeno en el centro de la caldera.

23. `O2_cont_right [%]`: Porcentaje de oxígeno en la sección derecha de la caldera.

24. `CO_cont_left_wall [%]`: Concentración de monóxido de carbono en la pared izquierda de la caldera.

25. `CO_cont_center [%]`: Concentración de monóxido de carbono en el centro de la caldera.

26. `CO_cont_right_wall [%]`: Concentración de monóxido de carbono en la pared derecha de la caldera.

---

### Flujo de Aire en Etapas de Combustión

27. `Primario`: Flujo de aire en la etapa primaria de la combustión.

28. `Secundario`: Flujo de aire en la etapa secundaria de la combustión.

29. `Secundario Alto`: Flujo de aire en una subetapa secundaria más alta.

30. `Terciario`: Flujo de aire en la etapa terciaria de la combustión.

31. `Cuaternario`: Flujo de aire en la etapa cuaternaria de la combustión.

---

### Indicadores de Proceso

32. `Aire de combustión/ carga de licor [Nm³/kg DS]`: Relación entre el flujo de aire y la cantidad de sólidos secos del licor negro.

33. `Temperatura de gases de salida [°C]`: Temperatura de los gases que salen de la caldera.

34. `Ratio flujo de vapor/ [Ton vap/kg DS]`: Relación entre el flujo de vapor generado y la cantidad de sólidos secos del licor negro.

35. `Atemperacion [°C]`: Temperatura del vapor tras el proceso de atemperación.

36. `T15 [°C]`: Temperatura medida en un punto específico del sistema.

37. `Soiling_rate_point`: Tasa de ensuciamiento en un punto crítico del sistema.

38. `Diff_Press_SC [kPa]`: Diferencia de presión en la sección de sobrecalentador.

39. `Diff_Press_BG [kPa]`: Diferencia de presión en la sección del hogar de la caldera.

40. `Diff_Press_ECO1 [kPa]`: Diferencia de presión en el economizador 1.

41. `Diff_Press_ECO2 [kPa]`: Diferencia de presión en el economizador 2.

### 1. __Exploración y Preparación de los Datos__

1. **Importación de los Datos**:

   - Cargar los datos del sistema en formato CSV

2. **Análisis Exploratorio de Datos (EDA)**:

   - Examinar la distribución de las variables.
   - Identificar valores atípicos y faltantes.
   - Visualizar correlaciones clave entre variables y el % de reducción.

3. **Limpieza de Datos**:

   - Manejar valores faltantes (imputación o eliminación según corresponda).
   - Normalizar las variables si es necesario para el análisis.

4. **Ingeniería de Características**:

   - Crear nuevas variables relevantes basadas en las existentes (por ejemplo, características temporales, medias moviles, etc).

5. **División del Conjunto de Datos**:

   - Separar los datos en conjuntos de entrenamiento, validación y prueba para evitar problemas de overfitting (sobreajuste).

---

### 2. __Modelado__

1. **Selección de Modelos**:

   - Probar diferentes algoritmos de machine learning, como regresión lineal, árboles de decisión, `Random Forest` o modelos basados en `Gradient Boosting`.

2. **Entrenamiento del Modelo**:

   - Entrenar los modelos utilizando el conjunto de datos de entrenamiento.
   - Ajustar hiperparámetros utilizando técnicas como `Grid Search` o `Random Search`.

3. **Evaluación del Modelo**:

   - Medir el rendimiento de los modelos utilizando métricas como el error cuadrático medio (`RMSE`) y el coeficiente de determinación (`R²`).
   - Validar el modelo en el conjunto de prueba para comprobar su capacidad de generalización.

---

### 3. __Interpretación de Resultados__

1. **Análisis de Importancia de Variables**:

   - Identificar las variables más relevantes para el modelo.
   - Realizar análisis de sensibilidad para entender cómo afectan las variables al `% de reducción`.

2. **Visualización de Resultados**:

   - Crear gráficos para representar los resultados del modelo.
   - Comparar los valores predichos con los valores reales.


In [None]:
#Importar librerias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.io as pio
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import time

from sklearn.model_selection import train_test_split, GridSearchCV
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
from sklearn.linear_model import LinearRegression
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.svm import SVR
from lightgbm import LGBMRegressor

import warnings
warnings.filterwarnings('ignore')

In [None]:
# Cargar Datos y convertirlos en un DataFrame
df = pd.read_csv('data_caldera.csv')

# Visualizar una muestra del DataFrame
df.sample(5)

In [None]:
# Crear la columna categórica basada en las condiciones
def categorize_reduction(value):
    if 5460 <= value < 5850:
        return 'Low'
    elif 5850 <= value < 6240:
        return 'Medium'
    elif 6240 <= value < 7424:
        return 'High'
    else:
        return None  # Opcional: Para valores fuera del rango definido

df['charge_level'] = df['Carga [TSS/d]'].apply(categorize_reduction)

In [None]:
# Mostrar resultados
df['charge_level'].value_counts(dropna=False)

In [None]:
# Estructura de la base de Datos
df.shape

In [None]:
# Nombre de la columna a procesar
target_column = 'Carga [TSS/d]'

# Calcular el IQR para la columna específica
Q1 = df[target_column].quantile(0.25)
Q3 = df[target_column].quantile(0.75)
IQR = Q3 - Q1

# Definir límites
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR

# Filtrar filas que están dentro de los límites
df_sin_outliers = df[(df[target_column] >= lower_bound) & (df[target_column] <= upper_bound)]


In [None]:
# Mostrar resultados
df_sin_outliers['charge_level'].value_counts(dropna=False)

In [None]:
df_sin_outliers.shape

In [None]:
# Visalizar linea de tiempo para la carga de la caldera
ssq_scatter = px.scatter(df,
                   x='datetime',
                   y='Carga [TSS/d]',
                   title='Carga [TSS/d] Over Time',
                   labels={'ts': 'Timestamp', 'Carga [TSS/d]': 'Carga [TSS/d]'})

# Ajustar las dimensiones de la visualización
ssq_scatter.update_layout(width=1000, height=600, title_font_size=20)

# Mostrar el gráfico
ssq_scatter.show()

In [None]:
# Visalizar linea de tiempo para la carga de la caldera
ssq_scatter = px.scatter(df_sin_outliers,
                   x='datetime',
                   y='Carga [TSS/d]',
                   title='Carga [TSS/d] Over Time',
                   labels={'ts': 'Timestamp', 'Carga [TSS/d]': 'Carga [TSS/d]'})

# Ajustar las dimensiones de la visualización
ssq_scatter.update_layout(width=1000, height=600, title_font_size=20)

# Mostrar el gráfico
ssq_scatter.show()

In [None]:
percent_data = (df_sin_outliers[(df_sin_outliers['reduction_ins [%]'] > 80) & (df_sin_outliers['reduction_ins [%]'] < 100)].shape[0]/len(df_sin_outliers))
percent_data

In [None]:
(df_sin_outliers[(df_sin_outliers['reduction_ins [%]'] > 80) & (df_sin_outliers['reduction_ins [%]'] < 100)]['charge_level'].value_counts(dropna=False) / len(df))*100

In [None]:
filter =  df_sin_outliers[(df_sin_outliers['reduction_ins [%]'] > 80) & (df_sin_outliers['reduction_ins [%]'] < 100)]

In [None]:
# Crear un gráfico de líneas para la variable reducción
red_scatter = px.scatter(filter,
                   x='datetime',
                   y='reduction_ins [%]',
                   color = 'charge_level',
                   title='reduction_ins [%] Over Time',
                   labels={'ts': 'Timestamp', 'reduction_ins [%]': 'Reduction_ins [%]'})

# Ajustar margenes de la visualización
red_scatter.update_layout(width=1000, height=600, title_font_size=20)

# Mostrar el gráfico
red_scatter.show()

Se filtraran los datos para diferentes niveles de `carga de caldera` para un rango de tiempo determinado (Posterior a PGP) y evaluaremos las correlaciónes entre variables y efectividad de algunos modelos de machine learning.

Por otro lado se `eliminaran outliers`, para omitir eventos particulares que no reflejan el comportamiento ideal para la caldera.

In [None]:
# Filtrar la data con diferentes cargas de solidos secos [ton/h]

low_dc = df_sin_outliers[
    (df_sin_outliers['datetime'] >= '2024-06-20') &
    (df_sin_outliers['datetime'] >= '2024-09-20') &
    (df_sin_outliers['Carga [TSS/d]'] >= 5460) &
    (df_sin_outliers['Carga [TSS/d]'] < 5850) &
    (df_sin_outliers['reduction_ins [%]'] > 80) &
    (df_sin_outliers['reduction_ins [%]'] < 100)
]

medium_dc = df_sin_outliers[
    (df_sin_outliers['datetime'] >= '2024-06-20') &
    (df_sin_outliers['datetime'] >= '2024-09-20') &
    (df_sin_outliers['Carga [TSS/d]'] >= 5850) &
    (df_sin_outliers['Carga [TSS/d]'] < 6240) &
    (df_sin_outliers['reduction_ins [%]'] > 80) &
    (df_sin_outliers['reduction_ins [%]'] < 100)
]

high_dc = df_sin_outliers[
    (df_sin_outliers['datetime'] >= '2024-06-20') &
    (df_sin_outliers['datetime'] >= '2024-09-20') &
    (df_sin_outliers['Carga [TSS/d]'] >= 6240) &
    (df_sin_outliers['Carga [TSS/d]'] < 6800) &
    (df_sin_outliers['reduction_ins [%]'] > 80) &
    (df_sin_outliers['reduction_ins [%]'] < 100)
]

print(f'Tamaño low_dc: {low_dc.shape}')
print(f'Tamaño medium_dc: {medium_dc.shape}')
print(f'Tamaño high_dc: {high_dc.shape}')

In [None]:
df_sin_outliers[['Carga [TSS/d]', 'Temperatura LN a boquillas [°C]', 'sulfidez_ins [%]', 'reduction_ins [%]', 'O2_cont_center [%]']].describe().T

In [None]:
low_dc[['Carga [TSS/d]', 'Temperatura LN a boquillas [°C]', 'sulfidez_ins [%]', 'reduction_ins [%]', 'O2_cont_center [%]']].describe().T

In [None]:
medium_dc[['Carga [TSS/d]', 'Temperatura LN a boquillas [°C]', 'sulfidez_ins [%]', 'reduction_ins [%]', 'O2_cont_center [%]']].describe().T

In [None]:
high_dc[['Carga [TSS/d]', 'Temperatura LN a boquillas [°C]', 'sulfidez_ins [%]', 'reduction_ins [%]', 'O2_cont_center [%]']].describe().T

Se crean características temporales para el modelo

In [None]:
# Crear características temporales para cada carga de la caldera
low_dc['month'] = pd.to_datetime(low_dc['datetime']).dt.month
low_dc['day'] = pd.to_datetime(low_dc['datetime']).dt.day
low_dc['hour'] = pd.to_datetime(low_dc['datetime']).dt.hour
low_dc['minute'] = pd.to_datetime(low_dc['datetime']).dt.minute

medium_dc['month'] = pd.to_datetime(medium_dc['datetime']).dt.month
medium_dc['day'] = pd.to_datetime(medium_dc['datetime']).dt.day
medium_dc['hour'] = pd.to_datetime(medium_dc['datetime']).dt.hour
medium_dc['minute'] = pd.to_datetime(medium_dc['datetime']).dt.minute

high_dc['month'] = pd.to_datetime(high_dc['datetime']).dt.month
high_dc['day'] = pd.to_datetime(high_dc['datetime']).dt.day
high_dc['hour'] = pd.to_datetime(high_dc['datetime']).dt.hour
high_dc['minute'] = pd.to_datetime(high_dc['datetime']).dt.minute

Previamente se realizo feature engineering por lo que se realizo una selección de las características mas importantes para entrenar y evaluar los modelos.

In [None]:
# Características relevantes

features = ['datetime', 'Carga [TSS/d]', 'Solidos a quemado [%]', 'Temperatura LN a boquillas [°C]',
            'Flujo agua alimentacion [t/h]', 'Temperatura de salida vapor [°C]', 'gen_vapor [ton/h]',
            'press_hogar [kPa]', 'heat_coef_SH1 [kJ/m2C]', 'heat_coef_SH2 [kJ/m2C]', 'heat_coef_SH3 [kJ/m2C]',
            'heat_coef_SH4 [kJ/m2C]', 'reduction_ins [%]', 'alcali_lv_ins [g/L]', 'sulfidez_ins [%]',
            'NOx [mg/Nm³]', 'Material particulado [mg/Nm³]', 'SO2 [mg/Nm³]', 'TRS [mg/Nm³]',
            'CO [mg/Nm³]', 'O2_cont_left [%]', 'O2_cont_center [%]', 'O2_cont_right [%]', 'CO_cont_left_wall [%]',
            'CO_cont_center [%]', 'CO_cont_right_wall [%]', 'Primario', 'Secundario', 'Secundario Alto',
            'Terciario', 'Cuaternario', 'Aire de combustión/ carga de licor [Nm3/kg DS]', 'Temperatura de gases de salida [°C]',
            'Ratio flujo de vapor/ [Ton vap/kg DS]', 'Atemperacion [°C]', 'T15 [°C]', 'Soiling_rate_point', 'Diff_Press_SC [kPa]',
            'Diff_Press_BG [kPa]', 'Diff_Press_ECO1 [kPa]', 'Diff_Press_ECO2 [kPa]', 'charge_level', 'month', 'day', 'hour', 'minute']

# Filtrar las características mas relevantes para cada dataframe
low_dcf = low_dc[features]
medium_dcf = medium_dc[features]
high_dcf = high_dc[features]

Volvemos a visualizar la carga de la caldera y la variable objetivo con los filtros predefinidos previamente.

In [None]:
# Crear un gráfico de líneas
fig_scatter = px.scatter(high_dcf,
                   x='datetime',
                   y='Carga [TSS/d]',
                   title='Carga [TSS/d] Over Time',
                   labels={'datetime': 'Timestamp', 'Carga [TSS/d]': 'Carga [TSS/d]'})

# Mejorar la estética del gráfico
fig_scatter.update_layout(width=1000, height=600, title_font_size=20)

# Mostrar el gráfico
fig_scatter.show()

In [None]:
# Crear un gráfico de líneas
fig_scatter = px.scatter(medium_dc,
                   x='datetime',
                   y='reduction_ins [%]',
                   color = 'charge_level',
                   title='reduction_ins [%] Over Time',
                   labels={'datetime': 'Timestamp', 'reduction_ins [%]': 'Reduction_ins [%]'})

# Mejorar la estética del gráfico
fig_scatter.update_layout(width=1000, height=600, title_font_size=20)

# Mostrar el gráfico
fig_scatter.show()

In [None]:
# Configuración de estilo
sns.set_theme(style="whitegrid")

# Crear figura y subplots
fig, axes = plt.subplots(1, 2, figsize=(14, 6), sharey=True)

# Histograma para 'Carga [TSS/d]'
sns.histplot(
    data=low_dcf,
    x="Carga [TSS/d]",
    color="skyblue",
    kde=True,  # Agregar línea KDE
    alpha=0.7,
    ax=axes[0]  # Especificar el primer subplot
)
axes[0].set_title("Distribución de Carga [TSS/d]", fontsize=14)
axes[0].set_xlabel("Carga [TSS/d]", fontsize=12)
axes[0].set_ylabel("Frecuencia", fontsize=12)

# Histograma para 'reduction_ins [%]'
sns.histplot(
    data=low_dcf,
    x="reduction_ins [%]",
    color="red",
    kde=True,  # Agregar línea KDE
    alpha=0.7,
    ax=axes[1]  # Especificar el segundo subplot
)
axes[1].set_title("Distribución de Reduction_ins [%]", fontsize=14)
axes[1].set_xlabel("Reduction_ins [%]", fontsize=12)
axes[1].set_ylabel("")

# Ajustar diseño y mostrar gráfico
plt.tight_layout()
plt.show()


In [None]:
# Configuración de estilo
sns.set_theme(style="whitegrid")

# Crear figura y subplots
fig, axes = plt.subplots(1, 2, figsize=(14, 6), sharey=True)

# Histograma para 'Carga [TSS/d]'
sns.histplot(
    data=medium_dcf,
    x="Carga [TSS/d]",
    color="skyblue",
    kde=True,  # Agregar línea KDE
    alpha=0.7,
    ax=axes[0]  # Especificar el primer subplot
)
axes[0].set_title("Distribución de Carga [TSS/d]", fontsize=14)
axes[0].set_xlabel("Carga [TSS/d]", fontsize=12)
axes[0].set_ylabel("Frecuencia", fontsize=12)

# Histograma para 'reduction_ins [%]'
sns.histplot(
    data=medium_dcf,
    x="reduction_ins [%]",
    color="red",
    kde=True,  # Agregar línea KDE
    alpha=0.7,
    ax=axes[1]  # Especificar el segundo subplot
)
axes[1].set_title("Distribución de Reduction_ins [%]", fontsize=14)
axes[1].set_xlabel("Reduction_ins [%]", fontsize=12)
axes[1].set_ylabel("")

# Ajustar diseño y mostrar gráfico
plt.tight_layout()
plt.show()


In [None]:
# Configuración de estilo
sns.set_theme(style="whitegrid")

# Crear figura y subplots
fig, axes = plt.subplots(1, 2, figsize=(14, 6), sharey=True)

# Histograma para 'Carga [TSS/d]'
sns.histplot(
    data=high_dcf,
    x="Carga [TSS/d]",
    color="skyblue",
    kde=True,  # Agregar línea KDE
    alpha=0.7,
    ax=axes[0]  # Especificar el primer subplot
)
axes[0].set_title("Distribución de Carga [TSS/d]", fontsize=14)
axes[0].set_xlabel("Carga [TSS/d]", fontsize=12)
axes[0].set_ylabel("Frecuencia", fontsize=12)

# Histograma para 'reduction_ins [%]'
sns.histplot(
    data=high_dcf,
    x="reduction_ins [%]",
    color="red",
    kde=True,  # Agregar línea KDE
    alpha=0.7,
    ax=axes[1]  # Especificar el segundo subplot
)
axes[1].set_title("Distribución de Reduction_ins [%]", fontsize=14)
axes[1].set_xlabel("Reduction_ins [%]", fontsize=12)
axes[1].set_ylabel("")

# Ajustar diseño y mostrar gráfico
plt.tight_layout()
plt.show()


Los gráficos resaltan una `distribución multimodal` tanto para la `carga (TSS/d)` como para el porcentaje de reducción (`Reduction_ins`). Esto sugiere la presencia de diferentes modos de operación o configuraciones que afectan el proceso. Un análisis más profundo sobre la relación entre estas dos variables y otros parámetros operativos podría proporcionar insights clave para optimizar el sistema. También sería valioso explorar técnicas de `clustering o análisis de segmentos` para agrupar diferentes configuraciones de operación y entender su impacto en la eficiencia de la caldera.

In [None]:
# Crear subplots con 1 fila y 2 columnas
fig = make_subplots(rows=1, cols=2, subplot_titles=["Carga [TSS/d]", "reduction_ins [%]"])

# Boxplot para 'Carga [TSS/d]'
fig.add_trace(
    go.Box(
        y=medium_dcf['Carga [TSS/d]'],
        name='Carga [TSS/d]',
        boxpoints='all',  # Mostrar todos los puntos
        jitter=0.3,       # Separar los puntos
        pointpos=-1.8     # Ajustar posición de los puntos
    ),
    row=1, col=1
)

# Boxplot para 'reduction_ins [%]'
fig.add_trace(
    go.Box(
        y=medium_dcf['reduction_ins [%]'],
        name='reduction_ins [%]',
        boxpoints='all',  # Mostrar todos los puntos
        jitter=0.3,       # Separar los puntos
        pointpos=-1.8     # Ajustar posición de los puntos
    ),
    row=1, col=2
)

# Actualizar diseño
fig.update_layout(
    title_text="Boxplots de Variables",
    height=600,
    width=1000,
    showlegend=False  # Ocultar leyendas
)

# Mostrar el gráfico
fig.show()

El `boxplot de Carga [TSS/d]` muestra una distribución estable sin valores extremos significativos, lo que indica un control adecuado de la carga en el proceso.

El `boxplot de Reduction_ins [%]` muestra variabilidad significativa con algunos valores atípicos que podrían requerir mayor atención para entender su origen.


In [None]:
# Excluye la columna 'datetime' antes de calcular la correlación
df_numeric = medium_dcf.select_dtypes(include=['number'])  # Selecciona solo las columnas numéricas

# Calcula la matriz de correlación
correlation_matrix = df_numeric.corr()

# Encuentra las variables con alta correlación con 'reduction_ins [%]'
threshold = 0.2  # Ajusta este valor según tu criterio
high_corr_vars = correlation_matrix.index[correlation_matrix['reduction_ins [%]'].abs() > threshold]

# Genera el pairplot con las variables seleccionadas
sns.pairplot(medium_dcf[high_corr_vars])

# Muestra el gráfico
plt.show()

Dado que se crearon características temporales, podemos eliminar la columna `datetime`

In [None]:
# Eliminar la columna 'datetime' del DataFrame
low_dcf = low_dcf.drop(columns=['datetime', 'charge_level'], errors='ignore')
medium_dcf = medium_dcf.drop(columns=['datetime', 'charge_level'], errors='ignore')
high_dcf = high_dcf.drop(columns=['datetime', 'charge_level'], errors='ignore')

In [None]:
# Información estadística general
medium_dcf.describe().T

Graficamos una matriz de correlación y la visualizamos como mapa de calor.

In [None]:
# Hagamos un HeatMap del df
correlacion = low_dcf.corr(method="pearson")
fig_heatmap = px.imshow(correlacion,
                        text_auto=True,
                        title='Heatmap for the Dataset')
fig_heatmap.update_layout(width=1400, height=1200, title_font_size=20)
fig_heatmap.show()

In [None]:
# Calcular la matriz de correlación
low_mat = low_dcf.corr(method="pearson")

# Seleccionar solo la columna 'reduction_ins [%]'
low_mat_reduction_ins = low_mat[['reduction_ins [%]']].drop(index='reduction_ins [%]')

# Crear el heatmap
plt.figure(figsize=(6, 10))  # Ajustar el tamaño del gráfico
sns.heatmap(low_mat_reduction_ins, 
            annot=True,      # Mostrar valores en las celdas
            cmap='coolwarm', # Elegir el esquema de colores
            fmt='.2f',       # Formato de los números
            cbar=True,       # Mostrar barra de color
            linewidths=0.5)  # Separación entre celdas

# Configurar el título
plt.title('Correlation Heatmap reduction_ins[%] for Low Charge', fontsize=16)

# Mostrar el gráfico
plt.show()

In [None]:
# Hagamos un HeatMap del df
correlacion = medium_dcf.corr(method="pearson")
fig_heatmap = px.imshow(correlacion,
                        text_auto=True,
                        title='Heatmap for the Dataset')
fig_heatmap.update_layout(width=1400, height=1200, title_font_size=20)
fig_heatmap.show()

In [None]:
# Calcular la matriz de correlación
medium_mat = medium_dcf.corr(method="pearson")

# Seleccionar solo la columna 'reduction_ins [%]'
medium_mat_reduction_ins = medium_mat[['reduction_ins [%]']].drop(index='reduction_ins [%]')

# Crear el heatmap
plt.figure(figsize=(6, 10))  # Ajustar el tamaño del gráfico
sns.heatmap(medium_mat_reduction_ins, 
            annot=True,      # Mostrar valores en las celdas
            cmap='coolwarm', # Elegir el esquema de colores
            fmt='.2f',       # Formato de los números
            cbar=True,       # Mostrar barra de color
            linewidths=0.5)  # Separación entre celdas

# Configurar el título
plt.title('Correlation Heatmap reduction_ins[%] for Medium Charge', fontsize=16)

# Mostrar el gráfico
plt.show()

In [None]:
# Hagamos un HeatMap del df
correlacion = high_dcf.corr(method="pearson")
fig_heatmap = px.imshow(correlacion,
                        text_auto=True,
                        title='Heatmap for the Dataset')
fig_heatmap.update_layout(width=1400, height=1200, title_font_size=20)
fig_heatmap.show()

In [None]:
# Calcular la matriz de correlación
high_mat = high_dcf.corr(method="pearson")

# Seleccionar solo la columna 'reduction_ins [%]'
high_mat_reduction_ins = high_mat[['reduction_ins [%]']].drop(index='reduction_ins [%]')

# Crear el heatmap
plt.figure(figsize=(6, 10))  # Ajustar el tamaño del gráfico
sns.heatmap(high_mat_reduction_ins, 
            annot=True,      # Mostrar valores en las celdas
            cmap='coolwarm', # Elegir el esquema de colores
            fmt='.2f',       # Formato de los números
            cbar=True,       # Mostrar barra de color
            linewidths=0.5)  # Separación entre celdas

# Configurar el título
plt.title('Correlation Heatmap reduction_ins[%] for High Charge', fontsize=16)

# Mostrar el gráfico
plt.show()

In [None]:
# Concatenar las matrices de correlación
low_mat_reduction_ins['Charge_Level'] = 'Low'
medium_mat_reduction_ins['Charge_Level'] = 'Medium'
high_mat_reduction_ins['Charge_Level'] = 'High'

# Combinar todas las matrices en un solo DataFrame
combined_mat = pd.concat([low_mat_reduction_ins, medium_mat_reduction_ins, high_mat_reduction_ins])

# Ajustar el índice para un formato más claro
combined_mat = combined_mat.reset_index().rename(columns={'index': 'Variable'})

# Crear un heatmap agrupado por nivel de carga
plt.figure(figsize=(10, 15))
heatmap_data = combined_mat.pivot(index='Variable', columns='Charge_Level', values='reduction_ins [%]')
sns.heatmap(heatmap_data, 
            annot=True, 
            cmap='coolwarm', 
            fmt='.2f', 
            linewidths=0.5, 
            cbar=True)

# Configurar el título
plt.title('Combined Correlation Heatmap for reduction_ins [%]', fontsize=16)
plt.xlabel('Charge Level')
plt.ylabel('Variable')

# Mostrar el gráfico
plt.show()

Debido a que la matriz es muy amplia, acotamos la selección considerando las características mas importantes para la reducción.

In [None]:
# Calcular la matriz de correlación solo para 'reduction_lab [%]'
correlacion_reduction_ins = medium_dcf.corr(method="pearson")['reduction_ins [%]'].sort_values(ascending=False)

# Convertir las correlaciones a un DataFrame para mejor control
correlation_df = correlacion_reduction_ins.drop(index='reduction_ins [%]').reset_index()
correlation_df.columns = ['Variable', 'Correlation']

# Crear un heatmap utilizando Plotly Express
fig_heatmap = px.bar(correlation_df,
                     x='Correlation',
                     y='Variable',
                     orientation='h',
                     title='Correlation Heatmap for reduction_ins [%]',
                     text='Correlation',
                     color='Correlation',
                     color_continuous_scale='RdBu')  # Escala de colores: rojo para negativos, azul para positivos

# Mejorar la estética del gráfico
fig_heatmap.update_traces(texttemplate='%{text:.2f}', textposition='outside')
fig_heatmap.update_layout(width=1000,
                          height=800,
                          title_font_size=20,
                          yaxis=dict(title='Variables'),
                          xaxis=dict(title='Correlation'))

# Mostrar el gráfico
fig_heatmap.show()

1. __Variables Clave para el Modelo__:

- Las variables más relevantes por su correlación son `sulfidez_ins [%]`, `Temperatura LN a boquillas [°C]`, `Secundario Alto`, y `Solidos a quemado [%]`. Estas deben ser prioritarias en el desarrollo del modelo predictivo.

2. __Investigaciones Adicionales__:

- Explorar las razones detrás de la correlación negativa de `SO2 [mg/Nm³]` y `Temperatura de salida vapor [°C]` para identificar posibles ajustes operativos.

- Analizar el impacto estacional reflejado en la correlación positiva de `month` para ajustar estrategias en función del tiempo.

3. __Optimización del Proceso__:

- Aumentar la atención en las condiciones operativas relacionadas con la `sulfidez_ins [%]` y `Temperatura LN a boquillas [°C]`, ya que estas parecen tener un impacto significativo en el desempeño del proceso.

## Machine Learning Models

In [None]:
# Definir la variable objetivo y sus características
X = medium_dcf.drop('reduction_ins [%]', axis=1)
y = medium_dcf['reduction_ins [%]']

Para generar un modelo predictivo para la variable de `reducción` de la caldera segmentaremos la base de datos en 3 conjuntos, `entrenamiento`, `test` y `validación`. Los datos de validación permitiran que podamos testear modelos con data nueva o que no ha sido utilizada previamente.

In [None]:
# Primera división: dividir en conjunto de entrenamiento (80%) y conjunto de prueba (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Segunda división: dividir el conjunto de entrenamiento en entrenamiento (90% de 80%) y validación (10% de 80%)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.10, random_state=42)

# Tamaños resultantes
print(f"Tamaño de X_train: {X_train.shape}")
print(f"Tamaño de X_val: {X_val.shape}")
print(f"Tamaño de X_test: {X_test.shape}")

Reemplazamos valores `inf` por valores nulos y eliminamos columnas que excedan un 50% de valores nulos

In [None]:
# Reemplazar inf con NaN en X_train, X_test y X_val
X_train = X_train.replace([np.inf, -np.inf], np.nan)
X_test = X_test.replace([np.inf, -np.inf], np.nan)
X_val = X_val.replace([np.inf, -np.inf], np.nan)

# Eliminar columnas con más del 50% de NaNs
X_train = X_train.dropna(thresh=X_train.shape[0] * 0.5, axis=1)
X_test = X_test.dropna(thresh=X_test.shape[0] * 0.5, axis=1)
X_val = X_val.dropna(thresh=X_val.shape[0] * 0.5, axis=1)

Luego imputamos las columnas con el promedio para cada una.

In [None]:
from sklearn.impute import SimpleImputer
import numpy as np

# Crear el imputador para llenar valores faltantes con la media de cada columna
imputer = SimpleImputer(strategy='mean')

# Ajustar el imputador solo con los datos de entrenamiento
X_train = imputer.fit_transform(X_train)

# Transformar el conjunto de validación y prueba usando el imputador ajustado
X_val = imputer.transform(X_val)
X_test = imputer.transform(X_test)

Escalamos las características con objetivo de normalizar sus datos y mantenerlas en un rango comparativo.

In [None]:
# Crear el escalador
scaler = StandardScaler()

# Ajustar el escalador solo con los datos de entrenamiento
X_train = scaler.fit_transform(X_train)

# Transformar el conjunto de validación y prueba usando el escalador ajustado
X_val = scaler.transform(X_val)
X_test = scaler.transform(X_test)

Entrenaremos diferentes modelos de machine learning para evaluar cual obtiene las mejores metricas, que permitan reducir el error en la instrumentación.

In [None]:
# Diccionario de modelos
modelos = {
    'Decision Tree': DecisionTreeRegressor(),
    'Random Forest': RandomForestRegressor(),
    'GradientBoostingRegressor': GradientBoostingRegressor(),
    'LightGBM': LGBMRegressor(),
    'SVR': SVR()
}

# Diccionario de hiperparámetros para búsqueda
parametros = {
    'Decision Tree': {
        'max_depth': [5, 10, None],
        'min_samples_split': [2, 5, 7],
        'min_samples_leaf': [1, 2, 4]
    },
    'Random Forest': {
        'n_estimators': [30, 50, 100],
        'max_depth': [5, 10, None],
        'min_samples_split': [2, 5, 7],
        'min_samples_leaf': [1, 2, 4]
    },
    'GradientBoostingRegressor': {
        'n_estimators': [30, 50, 100],
        'learning_rate': [0.01, 0.1, 0.2],
        'max_depth': [3, 5, 7]
    },
    'LightGBM': {
        'n_estimators': [30, 50, 100],
        'max_depth': [5, 10, 20],
        'learning_rate': [0.01, 0.1, 0.2],
        'num_leaves': [20, 31, 40]
    },
    'SVR': {
                'C': [0.1, 1, 10],
                'kernel': ['rbf', 'linear'],
                'gamma': ['scale', 'auto']
    }
}


Consideraremos las siguientes metricas, `Mean Absolute Error (MAE)`, `Mean Square Error (MSE)`, `Root Mean Square Error (RMSE)` y el `Coeficiente de Determinación`($R^2$). Luego creamos una función que evalua cada modelo considerando la grilla de hiperparametros definidos en la funcion de entrenamiento y considera los mejores parametros para evaluar las metricas y su tiempo de entrenamiento y evaluación.

In [None]:
# Diccionario para almacenar los resultados
resultados = {
    'Modelo': [],
    'Mejores Hiperparámetros': [],
    'MAE (Validación)': [],
    'MSE (Validación)': [],
    'RMSE (Validación)': [],
    'R2 (Validación)': [],
    'MAE (Prueba)': [],
    'MSE (Prueba)': [],
    'RMSE (Prueba)': [],
    'R2 (Prueba)': [],
    'Tiempo de Entrenamiento y Evaluación (s)': []
}

# Evaluar modelos con los mejores hiperparámetros
for nombre, modelo in modelos.items():
    try:
        # Iniciar el cronómetro para medir el tiempo de entrenamiento y evaluación
        start_time = time.perf_counter()

        if parametros.get(nombre):  # Si hay hiperparámetros para ajustar
            search = GridSearchCV(
                modelo,
                parametros[nombre],
                cv=3,
                scoring='neg_mean_squared_error',
                n_jobs=-1
            )

            # Ajustar el modelo
            search.fit(X_train, y_train)

            best_model = search.best_estimator_
            best_params = search.best_params_
        else:
            # Si no hay hiperparámetros, usar el modelo tal cual
            best_model = modelo
            best_model.fit(X_train, y_train)
            best_params = "No aplica"

        # Realizar predicciones en el conjunto de validación
        y_pred_val = best_model.predict(X_val)

        # Calcular métricas en el conjunto de validación
        mae_val = round(mean_absolute_error(y_val, y_pred_val), 4)
        mse_val = round(mean_squared_error(y_val, y_pred_val), 4)
        rmse_val = round(np.sqrt(mse_val), 4)
        r2_val = round(r2_score(y_val, y_pred_val), 4)

        # Realizar predicciones en el conjunto de prueba (solo al final)
        y_pred_test = best_model.predict(X_test)

        # Calcular métricas en el conjunto de prueba
        mae_test = round(mean_absolute_error(y_test, y_pred_test), 4)
        mse_test = round(mean_squared_error(y_test, y_pred_test), 4)
        rmse_test = round(np.sqrt(mse_test), 4)
        r2_test = round(r2_score(y_test, y_pred_test), 4)

        # Calcular el tiempo de entrenamiento y evaluación
        execution_time = round(time.perf_counter() - start_time, 4)

        # Guardar los resultados en el diccionario
        resultados['Modelo'].append(nombre)
        resultados['Mejores Hiperparámetros'].append(best_params)
        resultados['MAE (Validación)'].append(mae_val)
        resultados['MSE (Validación)'].append(mse_val)
        resultados['RMSE (Validación)'].append(rmse_val)
        resultados['R2 (Validación)'].append(r2_val)
        resultados['MAE (Prueba)'].append(mae_test)
        resultados['MSE (Prueba)'].append(mse_test)
        resultados['RMSE (Prueba)'].append(rmse_test)
        resultados['R2 (Prueba)'].append(r2_test)
        resultados['Tiempo de Entrenamiento y Evaluación (s)'].append(execution_time)

    except Exception as e:
        print(f"Error evaluando el modelo {nombre}: {e}")
        continue

In [None]:
# Convertir los resultados en un DataFrame
df_resultados = pd.DataFrame(resultados)

# Mostrar la tabla de resultados
df_resultados

### **Conclusión**

El análisis comparativo de los modelos demuestra que el desempeño varía significativamente en términos de precisión \( $R^2$ \) y tiempo de entrenamiento. Entre todos los modelos evaluados:

- **Random Forest** ofrece el mejor rendimiento con un \( $R^2$ = 0.975 \) en el conjunto de prueba, lo que indica una excelente capacidad de generalización. Sin embargo, su tiempo de entrenamiento es considerablemente alto (6302s).

- **GradientBoostingRegressor** se posiciona como una opción balanceada, logrando un \( $R^2$ = 0.936 \) en prueba y un tiempo de entrenamiento moderado (966s), siendo adecuado para escenarios donde se necesita precisión con un tiempo de entrenamiento razonable.



Una vez definido el modelo con mejores metricas, aplicamos `Randomized Search` considerando mas posibilidades de mejorar las metricas obtenidas previamente aumentando las estimaciones, profundidad, numero minimo de muestras, cantidad de caracteristicas y bootstrapping.

In [None]:
from sklearn.model_selection import RandomizedSearchCV
import numpy as np

# Definir una grilla más amplia para RandomizedSearchCV
param_dist = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10],
    'min_samples_leaf': [1, 2, 4],
    'max_features': ['auto', 'log2'],
    'bootstrap': [True, False]
}

# Instanciar Random Forest
rf = RandomForestRegressor(random_state=42)

# RandomizedSearchCV para ajuste
random_search = RandomizedSearchCV(estimator=rf, param_distributions=param_dist, 
                                   n_iter=100, cv=5, scoring='neg_mean_squared_error', 
                                   verbose=2, random_state=42, n_jobs=-1)

# Ajustar el modelo usando el conjunto de entrenamiento
random_search.fit(X_train, y_train)

# Obtener los mejores hiperparámetros encontrados
print("Mejores Hiperparámetros:", random_search.best_params_)

In [None]:
# Define el modelo con los mejores hiperparámetros
best_model = RandomForestRegressor(max_depth = 20, min_samples_leaf = 1, min_samples_split = 2, n_estimators = 100, random_state=42)

# Entrena el modelo usando el conjunto de entrenamiento
best_model.fit(X_train, y_train)

# Realiza predicciones en el conjunto de validación
y_pred_val = best_model.predict(X_val)

# Realiza predicciones en el conjunto de prueba
y_pred_test = best_model.predict(X_test)

In [None]:
# Calcula las métricas de evaluación en el conjunto de validación
mae_val = mean_absolute_error(y_val, y_pred_val)
mse_val = mean_squared_error(y_val, y_pred_val)
rmse_val = np.sqrt(mse_val)
r2_val = r2_score(y_val, y_pred_val)

# Calcula las métricas de evaluación en el conjunto de prueba
mae_test = mean_absolute_error(y_test, y_pred_test)
mse_test = mean_squared_error(y_test, y_pred_test)
rmse_test = np.sqrt(mse_test)
r2_test = r2_score(y_test, y_pred_test)

# Imprime las métricas para el conjunto de validación
print("Conjunto de Validación:")
print(f"Mean Absolute Error (MAE): {mae_val:.4f}")
print(f"Mean Squared Error (MSE): {mse_val:.4f}")
print(f"Root Mean Squared Error (RMSE): {rmse_val:.4f}")
print(f"R-squared (R2): {r2_val:.4f}")

# Imprime las métricas para el conjunto de prueba
print("\nConjunto de Prueba:")
print(f"Mean Absolute Error (MAE): {mae_test:.4f}")
print(f"Mean Squared Error (MSE): {mse_test:.4f}")
print(f"Root Mean Squared Error (RMSE): {rmse_test:.4f}")
print(f"R-squared (R2): {r2_test:.4f}")

Visualizaremos las características mas importantes para a futuro reducir la cardinalidad del problema y asi obtener buenas métricas en un menor tiempo de entrenamiento y evaluación.

In [None]:
# Obtener los nombres de las características desde el DataFrame
feature_names = X.columns if hasattr(X, 'columns') else [f'Feature {i}' for i in range(X.shape[1])]

# Obtener la importancia de los atributos
feature_importances = best_model.feature_importances_

# Crear un DataFrame para ordenar y visualizar la importancia, seleccionando solo las X más importantes
feature_importance_df = pd.DataFrame({
    'Feature': feature_names,
    'Importance': feature_importances
}).sort_values(by='Importance', ascending=False).head(5)

# Visualizar la importancia de los X atributos principales usando Plotly
fig = px.bar(
    feature_importance_df.sort_values(by='Importance', ascending=True),  # Orden ascendente para gráfico horizontal
    x='Importance',
    y='Feature',
    orientation='h',  # Gráfico horizontal
    title='Top 5 Atributos Más Importantes',
    labels={'Importance': 'Importancia', 'Feature': 'Atributo'},
    text='Importance',  # Mostrar los valores en las barras
    color='Importance',  # Aplicar degradado basado en la importancia
    color_continuous_scale='Viridis'  # Escala de colores degradada
)

# Ajustar la apariencia
fig.update_layout(
    template='plotly_white',
    xaxis_title='Importancia',
    yaxis_title='Atributo',
    coloraxis_showscale=True  # Mostrar la barra de escala de colores
)
fig.update_traces(texttemplate='%{text:.4f}', textposition='outside')

# Mostrar la gráfica
fig.show()

## Conclusión

- `La sulfidez_ins [%]` sigue siendo el factor más determinante, lo que confirma que el monitoreo y ajuste de este parámetro es esencial para optimizar el rendimiento del proceso.

- Las variables temporales (`month` y `day`) reflejan posibles patrones estacionales y operativos que deben ser investigados para mejorar la estabilidad del sistema.

- Parámetros físicos como la `Temperatura LN a boquillas [°C]` y el `O2_cont_center [%]` también tienen un impacto significativo en el rendimiento.


Observaremos la relación de las variables mas importantes segun el modelo predictivo en comparación con la reducción.

In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Crear subplots con 3 filas y 2 columnas (suficientes para 5 gráficos)
fig = make_subplots(
    rows=3, cols=2, 
    subplot_titles=[
        "Sulfidez_ins [%] vs Reduction_ins [%]", 
        "Month vs Reduction_ins [%]", 
        "Alcali_lv_ins [g/L] vs Reduction_ins [%]",
        "Temperatura LN a boquillas [°C] vs Reduction_ins [%]",
        "Day vs Reduction_ins [%]"
    ]
)

fig.add_trace(
    go.Scatter(
        x=df_filtered['sulfidez_ins [%]'],  # Cambia al nombre correcto
        y=df_filtered['reduction_ins [%]'],
        mode='markers',
        name='Sulfidez_ins [%]'
    ),
    row=1, col=1
)

# Gráfico 2: Month
fig.add_trace(
    go.Scatter(
        x=df_filtered['month'],
        y=df_filtered['reduction_ins [%]'],
        mode='markers',
        name='Month'
    ),
    row=1, col=2
)

# Gráfico 3: Alcali_lv_ins [g/L]
fig.add_trace(
    go.Scatter(
        x=df_filtered['alcali_lv_ins [g/L]'],
        y=df_filtered['reduction_ins [%]'],
        mode='markers',
        name='Alcali_lv_ins [g/L]'
    ),
    row=2, col=1
)

# Gráfico 4: Temperatura LN a boquillas [°C]
fig.add_trace(
    go.Scatter(
        x=df_filtered['Temperatura LN a boquillas [°C]'],
        y=df_filtered['reduction_ins [%]'],
        mode='markers',
        name='Temperatura LN a boquillas [°C]'
    ),
    row=2, col=2
)

# Gráfico 5: Day
fig.add_trace(
    go.Scatter(
        x=df_filtered['day'],
        y=df_filtered['reduction_ins [%]'],
        mode='markers',
        name='Day'
    ),
    row=3, col=1
)

# Configuración general
fig.update_layout(
    title="Gráficos de Dispersión: Variables vs Reduction_ins [%]",
    height=900,  # Altura total
    width=1000,  # Ancho total
    showlegend=False  # Ocultar leyendas individuales
)

# Mostrar el gráfico
fig.show()


1. `Sulfidez`:

Monitorear y mantener valores de sulfidez_ins [%] por encima de 20% para mejorar la eficiencia del proceso.
Analizar los factores que contribuyen a valores bajos de sulfidez.

2. `Alcali_lv_ins [g/L]`:

Mantener los niveles de álcali en el rango de 160-180 g/L para reducir la variabilidad en el rendimiento.

3. `Temperatura LN a boquillas`:

Asegurar un control preciso de la temperatura del licor negro en las boquillas, idealmente entre 138°C y 140°C.

4. `Análisis Temporal`:

Investigar las variaciones diarias y estacionales para identificar factores externos o internos que puedan influir en la eficiencia del proceso.

In [None]:
# Graficar valores reales vs predicciones para el conjunto de validación
plt.figure(figsize=(12, 6))
plt.plot(range(len(y_val)), y_val, label='Valores Reales (Validación)', linestyle='-', color='blue')
plt.plot(range(len(y_pred_val)), y_pred_val, label='Predicciones (Validación)', linestyle='-', color='red')
plt.title('Valores Reales vs Predicciones (Validación)', fontsize=16)
plt.xlabel('Índice', fontsize=12)
plt.ylabel('Variable Objetivo', fontsize=12)
plt.legend()
plt.show()

In [None]:
# Graficar valores reales vs predicciones para el conjunto de prueba
plt.figure(figsize=(12, 6))
plt.plot(range(len(y_test)), y_test, label='Valores Reales (Prueba)', linestyle='-', color='blue')
plt.plot(range(len(y_pred_test)), y_pred_test, label='Predicciones (Prueba)', linestyle='--', color='orange')
plt.title('Valores Reales vs Predicciones (Prueba)', fontsize=16)
plt.xlabel('Índice', fontsize=12)
plt.ylabel('Variable Objetivo', fontsize=12)
plt.legend()
plt.show()

In [None]:
import plotly.graph_objects as go
import numpy as np

# Datos para el conjunto de validacion
x_val = np.arange(len(y_val))
y_val = y_val
y_pred_val = y_pred_val

# Datos para el conjunto de prueba
x_test = np.arange(len(y_test))
y_test = y_test
y_pred_test = y_pred_test

# Crear gráfico para el conjunto de validacion
fig_val = go.Figure()
fig_val.add_trace(go.Scatter(x=x_val, y=y_val, mode='lines', name ='Valores Reales (Validación)'))
fig_val.add_trace(go.Scatter(x=x_val, y=y_pred_val, mode='lines', name ='Valores Predichos (Validación)'))

# Añade título y etiquetas
fig_val.update_layout(
    title = 'Valores Reales vs Predichos - Conjunto de Validación',
    xaxis_title = 'Índice',
    yaxis_title = 'Valores',
    legend = dict(x=0.01, y=0.99),
)

# Crea gráfico para el conjunto de prueba
fig_test = go.Figure()
fig_test.add_trace(go.Scatter(x=x_test, y=y_test, mode='lines', name ='Valores Reales (Prueba)'))
fig_test.add_trace(go.Scatter(x=x_test, y=y_pred_test, mode='lines', name ='Valores Predichos (Prueba)'))

# Añade título y etiquetas
fig_val.update_layout(
    title = 'Valores Reales vs Predichos - Conjunto de Prueba',
    xaxis_title = 'Índice',
    yaxis_title = 'Valores',
    legend = dict(x=0.01, y=0.99),
)

# Muestra las graficas
fig_val.show()
fig_test.show()

# Resultados de Modelos de Machine Learning y Variables Clave

## **Resultados de los Modelos de Machine Learning**

1. **Random Forest**:

   - Ofreció el mejor desempeño predictivo (\(R^2 = 0.978\)) en el conjunto de prueba, demostrando una alta capacidad de generalización para predecir el porcentaje de reducción.
   - Su tiempo de entrenamiento elevado (2014 segundos) lo hace menos eficiente para escenarios donde la velocidad es crítica.

2. **GradientBoostingRegressor**:

   - Presentó un balance entre precisión (\(R^2 = 0.936\)) y tiempo de entrenamiento (642 segundos), siendo adecuado para aplicaciones prácticas donde se necesita un equilibrio entre rendimiento y eficiencia.

3. **Decision Tree**:

   - Aunque menos preciso (\(R^2 = 0.933\)) que los modelos más complejos, destaca por su velocidad de entrenamiento (27 segundos), siendo una opción eficiente en entornos con limitaciones de tiempo.

4. **Importancia General**:

   - Los modelos confirman que existen relaciones no lineales entre las variables predictoras y el **% de reducción**, lo que justifica el uso de algoritmos avanzados en lugar de enfoques lineales.

---

## **Variables Clave para el Modelo**

1. **Sulfidez_ins [%]**:

   - La variable más importante, confirmada por su alta correlación y relevancia en los modelos. Valores superiores a 20% son esenciales para mantener la eficiencia de reducción.

2. **month** y **day**:

   - Estas variables temporales sugieren patrones estacionales y cíclicos que influyen en el rendimiento del sistema. Esto puede estar relacionado con condiciones operativas o cambios externos.

3. **Alcali_lv_ins [g/L]**:

   - Valores dentro del rango óptimo (160-180 g/L) están asociados con mayor estabilidad en el proceso, mientras que valores fuera de este rango pueden causar fluctuaciones.

4. **Temperatura LN a boquillas [°C]**:

   - Un control preciso en el rango de 138-140°C contribuye a una combustión más eficiente y a un mejor rendimiento del sistema.

5. **O2_cont_center [%]**:

   - La concentración de oxígeno en el centro de la caldera es un indicador clave del equilibrio de combustión, afectando directamente la eficiencia del proceso.

---

## **Conclusiones Operativas**

1. **Eficiencia del Modelo**:

   - Los resultados demuestran que modelos avanzados como `Random Forest` son capaces de capturar relaciones complejas entre las variables, siendo altamente efectivos para predecir el **% de reducción**.

2. **Factores Químicos y Operativos**:

   - La química del proceso, representada por **sulfidez_ins [%]** y **alcali_lv_ins [g/L]**, es determinante para optimizar la recuperación química en la caldera.
   - Los parámetros físicos, como la **Temperatura LN a boquillas [°C]** y el oxígeno, son igualmente relevantes para mantener un rendimiento consistente.

3. **Patrones Temporales**:

   - Los modelos destacan la importancia de analizar patrones estacionales y cíclicos (por ejemplo, **month** y **day**) para ajustar las condiciones operativas y minimizar fluctuaciones.

---

## **Recomendaciones Finales**

1. **Monitoreo en Tiempo Real**:

   - Implementar sensores y sistemas de control para monitorear y ajustar en tiempo real variables como **sulfidez_ins [%]**, **alcali_lv_ins [g/L]**, y **Temperatura LN a boquillas [°C]**.

2. **Optimización Basada en Modelos**:

   - Utilizar Random Forest o Gradient Boosting como herramientas principales para predecir y optimizar el rendimiento de la caldera recuperadora.

3. **Análisis Temporal**:

   - Explorar más a fondo los patrones temporales y ajustar las operaciones de la planta en función de ciclos estacionales o diarios identificados por las variables **month** y **day**.

4. **Pruebas de Escenarios**:

   - Realizar simulaciones ajustando variables clave para evaluar su impacto en el **% de reducción** y establecer condiciones óptimas de operación.

Con estas estrategias, será posible mejorar significativamente la eficiencia operativa, reducir costos y mantener un proceso sostenible y de alto rendimiento.
