# **Process Mining y AI Agents basados en LLM y uso de Técnicas RAG para la optimización de procesos hospitalarios.**
## **Chatbot AI Event Log Generator**

**Autor**: Sergio Arias Ruiz  
**Área TFM**: Área 3  
**Fecha**: Mayo 2025  
**Repositorio**: [Github-AI Event Log Generator](https://github.com/sariasruiz/AIeventLogGenerator)  
**Universitat Oberta de Catalunya**


### **Experimento Controlado de evaluación del AI Agent experto en generación de scripts SQL para la extracción de logs de eventos en bases de datos Hospitalarias.**

### **1. Resumen Método.**

### **1.1. Sistema propuesto.**

Se desarrolló un **AI Agent** basado en **RAG (Retrieval-Augmented Generation)** que genera *scripts* SQL para extraer logs de eventos a partir del *conocimiento* estructural de la base de datos corporativa. El flujo incluye cuatro componentes principales (Fig. 1):

| Nº | Componente | Configuración |
|----|------------|---------------|
|1|**AI Agent LLM para tareas de Diálogo**|'gpt-4o-mini', *temperature* = 0.0 (determinista). Formula **5 preguntas metodológicas** y **2 técnicas** para generar el contexto de necesidad del usuario.|
|2|**AI Tool 'search_and_generate_sql'**|Accesible por el AI Agent y orquestar la fase RAG y generación de Script SQL.|
|3|**Recuperador semántico**|Búsqueda el conocimiento relevante sobre una base vectorial de embeddings del esquema relacional de la base de datos corporativa.|
|4|**Doble Cadena de razonamiento LLM**|Dos instancias de 'o4-mini', *temperature* = 1.0.<br> • **R1** genera la primera versión del script.<br> • **R2** revisa y depura la salida de R1.|

**Fig. 1.**

El Agente sintetiza un contexto en una variable 'user_need' y llama a la AI Tool.  
La Tool recupera contexto desde una base de datos vectorial, invoca R1 para generar una primera versión del script y luego R2 para tareas de depuración de errores y mejora visual; la versión mejorada del script se envía directamente al usuario sin pasar por el agente.


### **1.2. Resumen Diseño experimental.**

**Prompt controlado para reproducir el dataset de [MIMICEL v2.1.0](https://physionet.org/content/mimicel-ed/2.1.0/)** lanzado **20 veces**.  
**Carga de datos [MIMIC-IV Módulo ED v2.2](https://physionet.org/content/mimic-iv-ed/2.2/)** utilizando scripts de la publicación de [MIMICEL](https://physionet.org/content/mimicel-ed/2.1.0/).

**Para todas las invocaciones a la AI Tool se registraron**:

---

**Métricas operacionales**:  
- **tokens consumidos:** (Total AI Tool, Retriever, Generación SQL, Generación SQL Enhanced)  
- **tiempo ejecución:** (Total AI Tool y por componente: Retriever, Generación SQL y Generación SQL Enhanced)  
- **coste USD (Tarifas OpenAI Mayo-2025):** (Total AI Tool y por componente: Retriever, Generación SQL y Generación SQL Enhanced).

Monitorizan las invocaciones a la AI Tool por parte del AI Agent.

**Referencias importantes:**
- **Lógica:** *'agent/experiment_log.py'*
- **Salida:** *'output/'*
- **Formato:** *(JSON File) 'TestToolAgent_'uuid'.json'*

---

**Para todas las invocaciones a la AI Tool, que devolvieron un script SQL exitoso:**

**Éxito de ejecución** = script SQL compila y se ejecuta sin manipulación en (PostgreSQL 16.8).  
**15(ne) de 20(n) ejecuciones exitosas.** (n=20, ne=15, tasa éxito: 75 %).

**Se registraron las siguientes métricas:**

**Métricas de rendimiento de la generación**:

Evaluan el rendimiento de la AI Tool en la replicación del dataset de control [MIMICEL](https://physionet.org/content/mimicel-ed/2.1.0/).

- **Lógica:** *'results/evaluator.py'* y *'results/result_generator.py'*.  
- **Salida:** *'results/json'*  
- **Formato:** (JSON File) *'Result_TestToolAgent_'uuid'.json'*  

**Nota:**  
Los archivos **JSON comparten 'uuid' para garantizar la trazabilidad** de toda la monitorización.

**Rendimiento de la generación de columnas** del dataset del control MIMICEL:

- **F1 Score**:  Media Armónica entre Precisión y Recall.
$$ F_{1_col} = 2 \cdot \frac{\text{Precision}_{col} \cdot \text{Recall}_{col}}{\text{Precision}_{col} + \text{Recall}_{col}} $$

- **Precisión**: Proporción de las columnas generadas por la AI Tool presentes en dataset de control MIMICEL y la totalidad de columnas generadas por la AI Tool.
$$ \text{Precision}_{col} = \frac{TP_{col}}{TP_{col} + FP_{col}} $$


- **Recall**:  Proporción de las columnas generadas por la AI Tool presentes en dataset de control MIMICEL y la totalidad de columnas esperadas en dataset de control.

$$ \text{Recall}_{col} = \frac{TP_{col}}{TP_{col} + FN_{col}} $$
- **True Positive (TP)**: Columnas **esperadas** en dataset de control (MIMICEL) y **generadas** por la AI Tool.
- **False Negative (FN)**: Colomnas **esperadas** en dataset de control (MIMICEL) y **no generadas** por la AI Tool.
- **False Positive (FP)**: Columnas **no esperadas** en dataset de control (MIMICEL) y **generadas** por la AI Tool.

**Rendimiento de la generación de eventos** del dataset del control MIMICEL:

- **F1 Score**:  Media Armónica entre Precisión y Recall.
$$ F_{1_eve} = 2 \cdot \frac{\text{Precision}_{eve} \cdot \text{Recall}_{eve}}{\text{Precision}_{eve} + \text{Recall}_{eve}} $$

- **Precisión**: Proporción de las eventos generados por la AI Tool presentes en dataset de control MIMICEL y la totalidad de eventos generados por la AI Tool.
$$ \text{Precision}_{eve} = \frac{TP_{eve}}{TP_{eve} + FP_{eve}} $$


- **Recall**:  Proporción de los eventos generados por la AI Tool presentes en dataset de control MIMICEL y la totalidad de eventos esperados en dataset de control.

$$ \text{Recall}_{eve} = \frac{TP_{eve}}{TP_{eve} + FN_{eve}} $$
- **True Positive (TP)**: Eventos **esperados** en dataset de control (MIMICEL) y **generados** por la AI Tool.
- **False Negative (FN)**: Eventos **esperados** en dataset de control (MIMICEL) y **no generados** por la AI Tool.
- **False Positive (FP)**: Eventos **no esperados** en dataset de control (MIMICEL) y **generados** por la AI Tool.

**Rendimiento de la generación de filas** del dataset del control MIMICEL:
- **Coverage**: Índice de cobertura entre las filas generadas por la AI Tool y las filas esperadas por el dataset de control MIMICEL.
 $$ \text{Coverage} = \frac{\text{Rows}_{\text{AI Tool}}}{\text{Rows}_{\text{MIMICEL}}} $$

Métrica complementaria. Adquiere valor si viene acompañado de métricas columns_F1 = 1 y events_F1 = 1. En este caso, si coverage=1, significa que el script SQL generado por la AI Tool podría ser una replicación exacta del dataset de control MIMICEL.

En caso de aparición, se procedería a revisión manual del script para confirmación.

---

### **1.3. Análisis estadístico.**

1. **Normalidad**: Se realiza test **Shapiro–Wilk** a las ejecuciones exitosas (n = 15).  
   * 19 / 29 métricas no superan el test normalidad (p < 0.05).  

2. **Intervalos de confianza (IC 95 %)** calculados mediante técnica **Bootstrap** para mantener coherencia de criterio en todas las métricas.

3. **Se reportan las métricas de salida** 

- tamaño de la muestra. 
- media.
- +-desviación estándar. 
- mediana. 
- IQR.
- mínimo. 
- máximo.
- IC 95 %.  

---

### **1.4. Reproducibilidad.**
*Prompts*, scripts de evaluación y archivos *json* de salida están disponibles en **[Github-AI Event Log Generator](https://github.com/sariasruiz/AIeventLogGenerator)**.

**Boostrap:** **librería** 'scipy.stats.bootstrap', **réplicas**='10.000' y **random_state** = '612'.

**Parámetros de interés en LLM y embeddings:**

| Parámetro | Valor | Configuración |
|---|---|---|
| modelo base AI Agent | gpt-4o-mini | temperature=0 |
| Embeddings (RAG) | text-embedding-3-small | -- |
| LLM Razonador 1 (R1) | 04-mini | temperature=1 |
| LLM Razonador 2 (R2) | 04-mini | temperature=1 |
| Embeddings F1 (columnas y eventos)*  | text-embedding-3-small | --- |

**Nota:** *Se utilizó búsqueda semántica para emparejar las columnas y eventos generados por la AI Tool con las columnas y eventos esperados del datase de control [MIMICEL](https://physionet.org/content/mimicel-ed/2.1.0/)*.  
*Para ver y auditar el proceso exacto ver 'evaluator.py' en el repositorio del proyecto.*

---

### **1.4.1 Prompt principal lanzado al AI Agent.**

Se diseñó un prompt para intentar describir al detalle en lenguaje natural el daset de control [MIMICEL](https://physionet.org/content/mimicel-ed/2.1.0/).  

Al prompt se le incorporaron diferentes elementos de control, con intencionalidad de forzar y confundir a los 2 modelos razonadores con tablas inexistentes o campos que no se podían extraer del conocimiento precargado. 

**Elementos inexistentes incorporados al prompt**:
- id de intervención quirúrgica.
- Evento de pruebas de laboratorio.
- Evento de pruebas radiológicas.
- Atributo edad del paciente.

**Elementos ambiguos incorporados al prompt**:
- Durante la conciliación de medicamentos, **no tengo claro que campos podemos obtener, incorpora todos los campos posibles como atributo.**
- Durante la dispensación de medicamentos, **me ocurre lo mismo, no tengo claro que podemos obtener, introduce todos los campos posibles como atributo.**
- De la llegada del paciente: El medio de llegada del paciente, el género, la edad y **si hay más campos disponibles captúralos.**

**Prompt base:**  
```prompt
Objetivo: Generar un log de eventos, que involucre todo el módulo de urgencias, para trazar los eventos generados en el servicio de extremo a extremo.

Grupo de pacientes: Toda la población en general.

Identificadores únicos: Quiero poder captura el id del paciente, la id de estancia en urgencias, y en el caso de que dispongan, la id de estancia hospitalaria, y la id de intervención quirúrgica.

Eventos a capturar:
- Llegada del paciente de urgencias (con el nombre de 'Entrada a Urgencias (ED)').
- Alta del paciente (con el nombre de 'Salida de Urgencias (ED)').
- Triaje del paciente (con el nombre 'Triaje en Urgencias (ED)').
- Toma de constantes vitales mientras está en urgencias (con el nombre de 'Toma de Constantes Vitales').
- La entrevista de conciliación de medicamento (con el nombre 'Conciliación de Medicamentos').
- La dispensación de medicamentos (bajo el nombre de 'Dispensación de Medicamentos').
- Las pruebas de laboratorio (bajo el nombre de 'Pruebas de Laboratorio')
- Y por último el evento de pruebas radiológicas. (bajo el nombre de 'Pruebas Radiológicas')

Como atributos en los siguientes eventos:
- De la llegada del paciente: El medio de llegada del paciente, el género, la edad y si hay más campos disponibles captúralos.
- Del alta del paciente: Me gustaría registrar el motivo de alta, toda la secuencia de códigos de diagnósticos, descripciones y la versiones de codificación utilizada.
- Del triaje: Me gustaría obtener el nivel de triaje, todas las tomas de constantes vitales realizadas en triaje, y campos de texto libre si existen.
- De la toma de constantes vitales, me gustaría al igual que en Triaje, todas las tomas de constantes vitales.
- Durante la conciliación de medicamentos, no tengo claro que campos podemos obtener, incorpora todos los campos posibles como atributo.
- Durante la dispensación de medicamentos, me ocurre lo mismo, no tengo claro que podemos obtener, introduce todos los campos posibles como atributo.
- De las pruebas de laboratorio, me gustaría capturar el nombre de tipo de prueba.
- Del evento de pruebas radiológicas, me gustaría capturar el nombre de tipo de prueba.

Validación de datos:
- Las estancias deberían ser: 'llegada a Urgencias (ED)' < 'Alta de Urgencias (ED)'
- Además se debe cumplir que: 
  1. 'Toma de Constantes Vitales' <= 'Alta de Urgencias (ED)'
  2. 'Dispensación de Medicamentos' <= 'Alta de Urgencias (ED)'
  3. 'Conciliación de Medicamentos' <= 'Alta de Urgencias (ED)'

Orden de datos:
Quiero ordenar el resultado por orden de id paciente ascendente y por marca de tiempo del evento ascendente.
```

---

### **1. Definición de funciones para el procesado de resultados**

In [1]:
import os
import json
import pandas as pd
from pathlib import Path
import plotly.express as px
import plotly.graph_objects as go
import numpy as np
from scipy.stats import bootstrap, shapiro


# Carga métricas de invocación de la AI Tool
def load_json(path_json_output: str, path_json_results: str) -> tuple[list[dict], list[dict]]:
    """
    Función que carga los datos de los archivos JSON de las invocaciones de la AI Tool y los resultados.
    
    Necesita de:
        path_json_output: Ruta a la carpeta con archivos donde se ubiquen las TestToolAgent_*.json
        path_json_results: Ruta a la carpeta con archivos de resultados donde se ubiquen los Result_TestToolAgent_*.json
        
    Nos devuelve:
        Tupla con dos listas de diccionarios conteniendo los datos cargados
    """
    datos_output = []
    datos_results = []

    try:
        carpeta_output = Path(path_json_output)
        carpeta_results = Path(path_json_results)
        
        if not carpeta_output.exists():
            raise FileNotFoundError(f"Carpeta no encontrada: {path_json_output}")
        if not carpeta_results.exists():
            raise FileNotFoundError(f"Carpeta no encontrada: {path_json_results}")
        
        archivos_outputs = list(carpeta_output.glob("TestToolAgent_*.json"))
        archivos_results = list(carpeta_results.glob("Result_TestToolAgent_*.json"))

        if not archivos_outputs:
            raise ValueError(f"No existen archivos en {path_json_output}")
        if not archivos_results:
            raise ValueError(f"No existen archivos en {path_json_results}")

        # Cargar invocaciones de la AI Tool TestToolAgent_*.json
        for path_output in archivos_outputs:
            uuid = path_output.stem.replace("TestToolAgent_", "")
            try:
                with open(path_output, 'r', encoding='utf-8') as f_out:
                    output_data = json.load(f_out)
                datos_output.append({
                    "uuid": uuid,
                    "output": output_data
                })
            except json.JSONDecodeError as e:
                print(f"Error de formato JSON en {path_output.name}: {e}")
            except Exception as e:
                print(f"Error al cargar {path_output.name}: {e}")
        
        # Cargar resultados de la AI Tool Result_TestToolAgent_*.json
        for path_results in archivos_results:
            uuid = path_results.stem.replace("Result_TestToolAgent_", "")
            try:
                with open(path_results, 'r', encoding='utf-8') as f_results:
                    results_data = json.load(f_results)
                datos_results.append({
                    "uuid": uuid,
                    "results": results_data
                })
            except json.JSONDecodeError as e:
                print(f"Error de formato JSON en {path_results.name}: {e}")
            except Exception as e:
                print(f"Error al cargar {path_results.name}: {e}")
        
        # Verificar que todos los UUIDs coincidan
        output_uuids = {d["uuid"] for d in datos_output}
        results_uuids = {d["uuid"] for d in datos_results}
        
        # Verificamos que tenemos emparejadas todas las uuid de invocaciones y resultados.
        if output_uuids != results_uuids:
            print("Advertencia: Los UUIDs no coinciden entre outputs y results")
            print(f"UUIDs en outputs pero no en results: {output_uuids - results_uuids}")
            print(f"UUIDs en results pero no en outputs: {results_uuids - output_uuids}")
        
        return datos_output, datos_results
        
    except Exception as e:
        print(f"Error general en load_json: {e}")
        return [], []

# Generación del dataframe con las métricas más relevantes
def dataframe_outputs(lista_outputs):
    """
    Función para convertir los datos recuperados de los archivos JSON 
    de las invocaciones de la AI Tool en un dataframe.

    Necesita la lista de la función load_json de la posición 0.

    Genera el dataframe con las métricas indicadas en la función.
    """
    filas = []
    for d in lista_outputs:
        o = d["output"]
        filas.append({
            "uuid": d["uuid"],
            "datetime": o.get("datetime"),
            "tokens_total_tool": o.get("tokens_total_tool"),
            "tokens_total_retriever_embedding": o.get("tokens_total_retriever_embedding"),
            "tokens_total_sql_generation": o.get("tokens_total_sql_generation"),
            "tokens_prompt_sql_generation": o.get("tokens_prompt_sql_generation"),
            "tokens_completion_sql_generation": o.get("tokens_completion_sql_generation"),
            "tokens_total_sql_generation_enhanced": o.get("tokens_total_sql_generation_enhanced"),
            "tokens_prompt_sql_generation_enhanced": o.get("tokens_prompt_sql_generation_enhanced"),
            "tokens_completion_sql_generation_enhanced": o.get("tokens_completion_sql_generation_enhanced"),
            "total_cost_tool_in_dollars": o.get("total_cost_tool_in_dollars"),
            "total_cost_retriever_embedding_in_dollars": o.get("total_cost_retriever_embedding_in_dollars"),
            "total_cost_sql_generation_in_dollars": o.get("total_cost_sql_generation_in_dollars"),
            "total_cost_sql_generation_enhanced_in_dollars": o.get("total_cost_sql_generation_enhanced_in_dollars"),
            "time_in_seconds_total": o.get("time_in_seconds_total"),
            "time_in_seconds_retriever": o.get("time_in_seconds_retriever"),
            "time_in_seconds_sql_generation": o.get("time_in_seconds_sql_generation"),
            "time_in_seconds_sql_generation_enhanced": o.get("time_in_seconds_sql_generation_enhanced")
        })
    return pd.DataFrame(filas)

# Generación del dataframe con las métricas más relevantes de la AI Tool vs MIMICEL (benchmark)
def dataframe_results(lista_results):
    """
    Función para convertir los datos recuperados de los archivos JSON 
    de los resultados de las invocaciones de la AI Tool vs MIMICEL (benchmark)
    en un dataframe.

    Necesita la lista de la función load_json de la posición 1.

    Genera el dataframe con las métricas indicadas en la función.
    """
    filas = []
    for d in lista_results:
        o = d["results"]
        filas.append({
            "uuid": d["uuid"],
            "evaluation_datetime": o.get("evaluation_datetime"),
            "execution_ok": o.get("execution_ok"),
            "coverage": o.get("coverage"),
            "openai_model": o.get("openai_model"),
            "columns_f1": o.get("columns_f1"),
            "columns_precision": o.get("columns_precision"),
            "columns_recall": o.get("columns_recall"),
            "columns_TP": o.get("columns_TP"),
            "columns_FP": o.get("columns_FP"),
            "columns_FN": o.get("columns_FN"),
            "events_f1": o.get("events_f1"),
            "events_precision": o.get("events_precision"),
            "events_recall": o.get("events_recall"),
            "events_TP": o.get("events_TP"),
            "events_FP": o.get("events_FP"),
            "events_FN": o.get("events_FN"),
            "columns_num_benchmark": o.get("columns_num_benchmark"),
            "events_num_benchmark": o.get("events_num_benchmark"),
            "columns_num_ai_tool": o.get("columns_num_ai_tool"),
            "events_num_ai_tool": o.get("events_num_ai_tool"),
            "total_rows_benchmark": o.get("total_rows_benchmark"),
            "total_rows_ai_tool": o.get("total_rows_ai_tool"),
        })
    return pd.DataFrame(filas)

def boxplot(df, title="Boxplot", value_name="valor", category_name="categoría"):
    """
    Función genérica para visualizaciones boxplots
    en plolty express

    Necesita:
    df: dataframe con los datos
    title: título del gráfico
    value_name: nombre de la columna con los valores a representar
    category_name: nombre de la columna con las categorías

    Devuelve:
    fig: figura de plotly
    """
    df_melted = df.melt(
        id_vars=["uuid"], 
        var_name=category_name, 
        value_name=value_name
    )
    fig = px.box(
        df_melted, 
        x=category_name, 
        y=value_name, 
        title=title, 
        boxmode='group',
        width=1000,
        height=500,
        color_discrete_sequence=['#000000'] )
    
    fig.update_layout(
        plot_bgcolor='white',
        paper_bgcolor='white',
        boxgap=0.3,
        boxgroupgap=0.3,
    )
    fig.show()

def heatmap(df, 
            value_columns, 
            title, 
            text_format='%{text}', 
            height=400):
    """
    Crea una matriz de calor (heatmap) usando plotly.
    
    Necesota:
        df: DataFrame con los datos
        value_columns: Lista de columnas a mostrar en el heatmap
        title: Título del gráfico
        text_format: Formato para mostrar los valores en las celdas 'Ejemplo: %{text:.2f}'
        height: Altura del gráfico (píxeles), en número entero.
    
    Devuelve:
        fig: figura de plotly
    """
    # Adecuamos el dataframe a lo que necesita plotly
    df_melted = df.melt(id_vars='uuid', 
                        value_vars=value_columns,
                        var_name='Metric', 
                        value_name='Value')

    # Crear el DataFrame pivotado
    df_pivot = df_melted.pivot(index='uuid', columns='Metric', values='Value')
    df_pivot = df_pivot.reindex(df['uuid'])  # Es necesario para que el orden funcione correctamente

    # Creación del heatmap
    fig = go.Figure(data=go.Heatmap(
        z=df_pivot.values,
        x=df_pivot.columns,
        y=df_pivot.index,
        colorscale='Greys',
        text=df_pivot.values,
        texttemplate=text_format,
        textfont={"size": 14},
        hoverongaps=False
    ))

    # Configuración adicional de capa
    fig.update_layout(
        title=title,
        xaxis_title='Métrica',
        yaxis_title='UUID',
        height=height
    )
    
    return fig

def bootstrap_ci(
        series: pd.Series,
        stat_func=np.mean,
        confidence_level: float = 0.95,
        n_resamples: int = 10_000,
        random_state: int = 612
    ):
    """
    Intervalo de confianza bootstrap
    """
    # Hay que borrar los NaN antes de aplicar la función.
    # No tenemos en este experimento, pero lo dejamos por buena práctica
    data = series.dropna().to_numpy()
    # Se aplica según la documentación de scipy.
    results = bootstrap(
        (data,),
        stat_func,
        confidence_level=confidence_level,
        n_resamples=n_resamples,
        method="percentile", # Método más común
        random_state=random_state
    )
    return results.confidence_interval.low, results.confidence_interval.high

def df_metrics_bootstrap(
        df: pd.DataFrame,
        stat_func = np.mean,
        confidence_level: float = 0.95,
        n_resamples: int = 10_000,
        random_state: int = 612
    ) -> pd.DataFrame:
    """
    Genera resultado final de métricas de la AI Tool.

    Le da los parámetros a la `función bootstrap_ci`
    Es necesaria esta función.

    Necesita:
    - df: dataframe con las métricas de la AI Tool.
    - stat_func: función de estadística a aplicar.
    - confidence_level: nivel de confianza.
    - n_resamples: número de resamples.
    - random_state: semilla para reproducibilidad.

    Devuelve Tupla con todo lo calculado:
    - dataframe con las métricas finales:
            - metrica: nombre de la métrica.
            - n: número de observaciones.
            - mean: media.
            - median: mediana.
            - std: desviación estándar.
            - iqr: rango intercuartílico.
            - min_val: valor mínimo.
            - max_val: valor máximo.
            - low: límite inferior del intervalo de confianza.
            - high: límite superior del intervalo de confianza.
    """
    # Capturamos columnas tipo numéricas                    
    columns = df.select_dtypes(include=[np.number]).columns

    full_stats = []
    for col in columns:
        s = df[col].dropna()
        low, high = bootstrap_ci(
            s, stat_func=stat_func,
            confidence_level=confidence_level,
            n_resamples=n_resamples,
            random_state=random_state
        )

        full_stats.append({
            "metric": col,
            "n": len(s),
            "mean": round(s.mean(), 3),
            "median": round(s.median(), 3),
            "std": round(s.std(
                ddof=1 # Nuestro caso es una muestra.
                ), 3),
            "IQR": round(s.quantile(0.75) - s.quantile(0.25), 3),
            "min": round(s.min(), 3),
            "max": round(s.max(), 3),
            "bootstrap_ci95_low": round(low, 3),
            "bootstrap_ci95_high": round(high, 3)
        })

    return pd.DataFrame(full_stats)

### **2. Generación de conjunto de datos básicos**

In [2]:
# Definimos los directorios de los json
carpeta_outputs = Path.cwd().parent / "output"
carpeta_results = Path.cwd().parent / "results/json"

# Cargamos los datos de las invocaciones y los resultados
lista_outputs, lista_results = load_json(carpeta_outputs, carpeta_results)

# Generamos los dataframes de interés
df_outputs = dataframe_outputs(lista_outputs)
df_results = dataframe_results(lista_results)

# Fusionamos los dataframes para unificar los datos
df_results_merged = pd.merge(df_outputs, df_results, on='uuid', how='inner')

# Borrar las columnas datetime que no son necesarias para el análisis.
df_results_clean = df_results_merged.drop(columns=['datetime', 'evaluation_datetime']).copy()


In [3]:
if not df_results_merged.empty:
    print("\nComprovación de carga de datos y fusión de dataframes:")
    display(df_results_clean.head(5).round(2))
else:
    print("Dataframe sin datos")


Comprovación de carga de datos y fusión de dataframes:


Unnamed: 0,uuid,tokens_total_tool,tokens_total_retriever_embedding,tokens_total_sql_generation,tokens_prompt_sql_generation,tokens_completion_sql_generation,tokens_total_sql_generation_enhanced,tokens_prompt_sql_generation_enhanced,tokens_completion_sql_generation_enhanced,total_cost_tool_in_dollars,...,events_recall,events_TP,events_FP,events_FN,columns_num_benchmark,events_num_benchmark,columns_num_ai_tool,events_num_ai_tool,total_rows_benchmark,total_rows_ai_tool
0,c3586acd-7397-43a4-837d-fd51f241dbc0,42083,410,21236,13585,7651,20437,16232,4205,0.08,...,0.0,0,0,0,0,0,0,0,0,0
1,07ffec4c-0015-418c-93d0-aaf87f35919d,43776,440,21253,13615,7638,22083,16636,5447,0.09,...,1.0,6,0,0,31,6,39,6,7568824,7577679
2,b651da68-e45f-4eb6-8119-b2b0a248d470,42817,408,20122,13582,6540,22287,16212,6075,0.09,...,0.83,5,1,1,31,6,29,6,7568824,7576640
3,0e830609-62a3-4f2d-8912-64a3b4ca0227,40599,502,19125,13670,5455,20972,16041,4931,0.08,...,1.0,6,0,0,31,6,30,6,7568824,7576432
4,c1e6c798-0c39-4b3b-8c99-92d78debfe73,40129,502,18435,13670,4765,21192,16759,4433,0.07,...,0.0,0,0,0,0,0,0,0,0,0


### **3. Preparación conjunto de datos especializados.**

In [4]:
# Limpieza df_result separar execution_ok: 1 y execution_ok: 0
# Es necesario separar de la muestra las ejecuciones que fueron exitosas y las que no.
df_results_ok = df_results_clean[df_results_clean['execution_ok'] == 1].copy()
df_results_no_ok = df_results_clean[df_results_clean['execution_ok'] == 0].copy()
df_results_execution = df_results_clean[['uuid', 'execution_ok']].copy()
# Conteo de todos los casos (tanto exitosos como no exitosos)
total_cases = df_results_execution['execution_ok'].value_counts()

# Cálculo de proporción correcto
prop_exec = (total_cases / len(df_results_execution)) * 100

# Dataframe resumen de éxito de ejecución
df_results_execution_summary = pd.DataFrame({
    'Execution': ['Script SQL: ejecutó', 'Script SQL: no ejecutó'],
    'Count': [total_cases.get(1, 0), total_cases.get(0, 0)],
    '%': [prop_exec.get(1, 0), prop_exec.get(0, 0)]
})

### Análisis de tiempos de ejecución
df_tiempos = df_outputs[[
    "uuid",
    "time_in_seconds_total",
    "time_in_seconds_retriever",
    "time_in_seconds_sql_generation",
    "time_in_seconds_sql_generation_enhanced"
]].copy()

### Análisis de tokens consumidos
# DataFrame separado para análisis de tokens consumidos
df_tokens = df_outputs[[
    "uuid",
    "tokens_total_tool",
    "tokens_total_retriever_embedding",
    "tokens_total_sql_generation",
    "tokens_total_sql_generation_enhanced",
    "tokens_prompt_sql_generation",
    "tokens_prompt_sql_generation_enhanced",
    "tokens_completion_sql_generation",
    "tokens_completion_sql_generation_enhanced"
]].copy()

# Tokens totales
df_tokens_totales = df_tokens[
    [
        "uuid",
        "tokens_total_tool",
        "tokens_total_retriever_embedding", 
        "tokens_total_sql_generation",
        "tokens_total_sql_generation_enhanced"
    ]].copy()

# Tokens detalle prompt
df_tokens_detail_prompt = df_outputs[[
    "uuid",
    "tokens_prompt_sql_generation",
    "tokens_prompt_sql_generation_enhanced",
]].copy()

# Tokens detalle completion
df_tokens_detail_completion = df_outputs[[
    "uuid",
    "tokens_completion_sql_generation",
    "tokens_completion_sql_generation_enhanced"
]].copy()

# Tokens embedding
df_tokens_embedding = df_outputs[[
    "uuid",
    "tokens_total_retriever_embedding"
]].copy()

### Análisis de costes
df_coste = df_outputs[[
    "uuid",
    "total_cost_tool_in_dollars",
    "total_cost_retriever_embedding_in_dollars",
    "total_cost_sql_generation_in_dollars",
    "total_cost_sql_generation_enhanced_in_dollars"
]].copy()

### Análisis de métricas de cobertura. Tiene sentido si f1 son buenos.
df_coverage = df_results_ok[[
    "uuid",
    "coverage",
    "total_rows_benchmark",
    "total_rows_ai_tool",
    "columns_f1",
    "events_f1"
]].copy()

### Análisis de métricas de rendimiento en columnas.
df_columns = df_results_ok[[
    "uuid",
    "columns_f1",
    "columns_precision",
    "columns_recall",
    "columns_TP",
    "columns_FP",
    "columns_FN"
]]

### Análisis de métricas de rendimiento en eventos.
df_events = df_results_ok[[
    "uuid",
    "events_f1",
    "events_precision",
    "events_recall",
    "events_TP",
    "events_FP",
    "events_FN"
]]


### **4. Análisis de tiempos por invocación de la AI Tool.**

In [5]:
print("\nTiempos de ejecución por invocación de la AI Tool:")
df_tiempos.describe().round(2)


Tiempos de ejecución por invocación de la AI Tool:


Unnamed: 0,time_in_seconds_total,time_in_seconds_retriever,time_in_seconds_sql_generation,time_in_seconds_sql_generation_enhanced
count,20.0,20.0,20.0,20.0
mean,116.08,1.09,64.7,50.26
std,18.05,1.22,15.11,12.63
min,76.21,0.37,39.19,33.75
25%,108.53,0.59,52.4,42.82
50%,117.59,0.81,66.77,46.41
75%,125.71,1.15,74.36,56.16
max,156.79,6.08,90.27,81.19


In [6]:
# Resumen de tiempos por invocación de los componentes de la AI Tool
boxplot(
    df_tiempos, 
    title="Boxplot: Tiempo de ejecución por invocación de la AI Tool.",
    value_name="Tiempo de ejecución (segundos)",
    category_name="Componente"
)

### **5. Análisis de Tokens consumidos por invocación de la AI Tool.**

#### **5.1. Tokens totales consumidos por invocación de la AI Tool.**

In [7]:
print("\nTokens consumidos totales por invocación de la AI Tool:")
display(df_tokens_totales.describe().round(2))


Tokens consumidos totales por invocación de la AI Tool:


Unnamed: 0,tokens_total_tool,tokens_total_retriever_embedding,tokens_total_sql_generation,tokens_total_sql_generation_enhanced
count,20.0,20.0,20.0,20.0
mean,43040.55,449.05,20439.8,22151.7
std,1925.14,40.3,1278.59,1382.09
min,39883.0,404.0,18435.0,19975.0
25%,42029.0,408.0,19417.0,21181.75
50%,43014.5,440.0,20132.0,22040.5
75%,43997.5,500.0,21354.75,22795.0
max,47526.0,502.0,22743.0,25352.0


In [8]:
# Boxplot de tokens totales por invocación y de la AI Tool
boxplot(
    df_tokens_totales, 
    title="Boxplot: Tokens Totales Consumidos por Invocación de la AI Tool.",
    value_name="Tokens",
    category_name="Componente"
)

#### **5.2. Tokens totales consumidos por invocación de la AI Tool en el prompt.**

In [9]:
# Tokens consumidos en el prompt
print("\nTokens consumidos por invocación de la AI Tool en el prompt:")
display(df_tokens_detail_prompt.describe().round(2))



Tokens consumidos por invocación de la AI Tool en el prompt:


Unnamed: 0,tokens_prompt_sql_generation,tokens_prompt_sql_generation_enhanced
count,20.0,20.0
mean,13621.8,16486.5
std,37.4,321.27
min,13580.0,16041.0
25%,13582.0,16281.0
50%,13615.0,16390.5
75%,13669.0,16633.0
max,13670.0,17164.0


In [10]:
# Boxplot de tokens consumidos en el prompt
boxplot(
    df_tokens_detail_prompt, 
    title="Boxplot: Tokens totales consumidos por invocación de la AI Tool en el prompt.",
    value_name="Tokens",
    category_name="Componente"
)

#### **5.3. Tokens totales consumidos por invocación de la AI Tool en la respuesta.**


In [11]:
print("\nTokens consumidos por invocación de la AI Tool en la respuesta:")
display(df_tokens_detail_completion.describe().round(2))


Tokens consumidos por invocación de la AI Tool en la respuesta:


Unnamed: 0,tokens_completion_sql_generation,tokens_completion_sql_generation_enhanced
count,20.0,20.0
mean,6818.0,5665.2
std,1289.87,1385.73
min,4765.0,3683.0
25%,5814.75,4892.5
50%,6533.5,5430.0
75%,7749.5,6220.75
max,9074.0,8943.0


In [12]:
# Boxplot de tokens consumidos en la respuesta
boxplot(
    df_tokens_detail_completion, 
    title="Boxplot: Tokens consumidos por invocación de la AI Tool en la respuesta.",
    value_name="Tokens",
    category_name="Componente"
)


#### **5.4. Tokens totales consumidos por invocación de la AI Tool en los embeddings.**

In [13]:
# Tokens consumidos en los embeddings
print("\nTokens consumidos por invocación de la AI Tool en los embeddings:")
display(df_tokens_embedding.describe().round(2))


Tokens consumidos por invocación de la AI Tool en los embeddings:


Unnamed: 0,tokens_total_retriever_embedding
count,20.0
mean,449.05
std,40.3
min,404.0
25%,408.0
50%,440.0
75%,500.0
max,502.0


In [14]:
# Boxplot de tokens consumidos en los embeddings
boxplot(
    df_tokens_embedding, 
    title="Boxplot: Tokens totales consumidos por invocación de la AI Tool en los embeddings.",
    value_name="Tokens",
    category_name="Componente"
)

### **6. Análisis de coste por invocación de la AI Tool en (USD).**

In [15]:
# Coste por componente de la AI Tool
print("\nCoste por invocación de la AI Tool en USD:")
display(df_coste.describe().round(2))


Coste por invocación de la AI Tool en USD:


Unnamed: 0,total_cost_tool_in_dollars,total_cost_retriever_embedding_in_dollars,total_cost_sql_generation_in_dollars,total_cost_sql_generation_enhanced_in_dollars
count,20.0,20.0,20.0,20.0
mean,0.09,0.0,0.04,0.04
std,0.01,0.0,0.01,0.01
min,0.07,0.0,0.04,0.03
25%,0.08,0.0,0.04,0.04
50%,0.09,0.0,0.04,0.04
75%,0.09,0.0,0.05,0.05
max,0.11,0.0,0.05,0.06


In [16]:
# Boxplot de coste por invocación de la AI Tool
boxplot(
    df_coste, 
    title="Boxplot: Coste por invocación de la AI Tool en USD.",
    value_name="Coste (USD)",
    category_name="Componente"
)

### **7. Análisis de rendimiento replicación dataset MIMICEL (benchmark).**

#### **7.1. Tasa de éxito de ejecución directa del Script SQL generado por la AI Tool.**

In [17]:
# Tasa de éxito en ejecución directa.
display(df_results_execution_summary)

Unnamed: 0,Execution,Count,%
0,Script SQL: ejecutó,15,75.0
1,Script SQL: no ejecutó,5,25.0


#### **7.2. Existencia de Script SQL Dorado. Replicación perfecta de MIMICEL (benchmark).**

Una replicación perfecta del dataframe de control MIMICEL, implicaría un combo de métricas perfectas.

En nuestro caso un **coverage = 1**, un **columns_f1 = 1** y un **events_f1 = 1**

In [18]:
# Dataframe de resultados de ejecuciones exitosas:
print("\nBúsqueda del script SQL dorado: Replicación total de MIMICEL (benchmark):")

# Filtra los casos donde coverage, columns_f1 y events_f1 son 1
df_results_ok_gold = df_results_ok[
    (df_results_ok['coverage'] == 1) &
    (df_results_ok['columns_f1'] == 1) &
    (df_results_ok['events_f1'] == 1)
    ].copy()

print(f"\nCasos encontrados: {len(df_results_ok_gold)}")
display(df_results_ok_gold)



Búsqueda del script SQL dorado: Replicación total de MIMICEL (benchmark):

Casos encontrados: 0


Unnamed: 0,uuid,tokens_total_tool,tokens_total_retriever_embedding,tokens_total_sql_generation,tokens_prompt_sql_generation,tokens_completion_sql_generation,tokens_total_sql_generation_enhanced,tokens_prompt_sql_generation_enhanced,tokens_completion_sql_generation_enhanced,total_cost_tool_in_dollars,...,events_recall,events_TP,events_FP,events_FN,columns_num_benchmark,events_num_benchmark,columns_num_ai_tool,events_num_ai_tool,total_rows_benchmark,total_rows_ai_tool


#### **7.3. Mejor Script SQL de replicación de MIMICEL (benchmark).**

Búsqueda de combinaciones de métricas perfectas.

In [19]:
# Dataframe de resultados de ejecuciones exitosas:
print("\nBúsqueda del script SQL que mejor ha replicado MIMICEL (benchmark):")

# Filtra los casos donde columns_f1 y events_f1 son 1
df_results_ok_good_performance_columnsf1_eventsf1 = df_results_ok[
    (df_results_ok['columns_f1'] == 1) &
    (df_results_ok['events_f1'] == 1)
    ].copy()

# Filtra los casos donde coverage, columns_f1
df_results_ok_good_performance_coverage_columnsf1 = df_results_ok[
    (df_results_ok['coverage'] == 1) &
    (df_results_ok['columns_f1'] == 1)
    ].copy()

# Filtra los casos donde coverage y events_f1 son 1
df_results_ok_good_performance_coverage_eventsf1 = df_results_ok[
    (df_results_ok['coverage'] == 1) &
    (df_results_ok['events_f1'] == 1)
    ].copy()


print(f"\nCasos encontrados coverage = 1 y columns_f1 = 1: \
      {len(df_results_ok_good_performance_coverage_columnsf1)}")
print(f"\nCasos encontrados coverage = 1 y events_f1 = 1: \
      {len(df_results_ok_good_performance_coverage_eventsf1)}")
print(f"\nCasos encontrados columns_f1 = 1 y events_f1 = 1: \
      {len(df_results_ok_good_performance_columnsf1_eventsf1)}")



Búsqueda del script SQL que mejor ha replicado MIMICEL (benchmark):

Casos encontrados coverage = 1 y columns_f1 = 1:       0

Casos encontrados coverage = 1 y events_f1 = 1:       0

Casos encontrados columns_f1 = 1 y events_f1 = 1:       1


El dasaset encontrado, tiene un desempeño casi perfecto en sus métricas f1, generando las mismas columnas y eventos que nuestro dataframe de control MIMICEL.

La cobertura de filas se acera al '1', que sería una cobertura de filas perfecta.

In [20]:
# Se muestran sus métricas de desempeño reproduciendo el dataframe de MIMICEL (benchmark)
df_results_ok_good_performance_melt = df_results_ok_good_performance_columnsf1_eventsf1.melt(
    var_name="métrica",
    value_name="valor"
)

# Métricas
display(df_results_ok_good_performance_melt.iloc[:, 0:])

Unnamed: 0,métrica,valor
0,uuid,a996d163-9fce-4f7e-b248-22826050010d
1,tokens_total_tool,41867
2,tokens_total_retriever_embedding,488
3,tokens_total_sql_generation,20112
4,tokens_prompt_sql_generation,13657
5,tokens_completion_sql_generation,6455
6,tokens_total_sql_generation_enhanced,21267
7,tokens_prompt_sql_generation_enhanced,16388
8,tokens_completion_sql_generation_enhanced,4879
9,total_cost_tool_in_dollars,0.082929


Si recuperamos su uuid, podemos ver la complejidad del script generado.

```sql
-- Campos y eventos NO encontrados en el esquema corporativo:
--   • edad (no existe columna birthdate o age en módulo ED)
--   • tablas y eventos “Pruebas de Laboratorio” y “Pruebas Radiológicas”

WITH
--------------------------------------------------------------------------------
-- Evento: Entrada a Urgencias (ED)
-- Tabla fuente: module_ed.edstays
ed_arrival AS (
    SELECT
        -- Identificadores únicos
        s.subject_id,                                      -- ID único del paciente
        s.stay_id,                                         -- ID de la estancia en urgencias
        s.hadm_id,                                         -- ID de hospitalización (NULL si no hubo)
        -- Marca temporal
        s.intime::TIMESTAMP        AS timestamps,          -- Fecha y hora de ingreso al ED
        -- Nombre del evento
        'Entrada a Urgencias (ED)'::VARCHAR   AS activity,
        -- Atributos de llegada
        s.arrival_transport        AS arrival_transport,   -- Medio de llegada (WALK IN, AMBULANCE, …)
        s.gender                   AS gender,              -- Género (M/F)
        s.race                     AS race,                -- Raza autoinformada
        -- Atributos de alta (no aplican)
        NULL::VARCHAR(255)         AS disposition,
        -- Diagnósticos facturados (no aplican)
        NULL::INTEGER              AS seq_num,
        NULL::VARCHAR(8)           AS icd_code,
        NULL::SMALLINT             AS icd_version,
        NULL::VARCHAR              AS icd_title,
        -- Triaje (no aplican)
        NULL::NUMERIC              AS acuity,
        NULL::VARCHAR(255)         AS chiefcomplaint,
        -- Signos vitales (no aplican)
        NULL::NUMERIC              AS temperature,
        NULL::NUMERIC              AS heartrate,
        NULL::NUMERIC(10,4)        AS resprate,
        NULL::NUMERIC              AS o2sat,
        NULL::NUMERIC              AS sbp,
        NULL::NUMERIC              AS dbp,
        NULL::VARCHAR              AS pain,
        NULL::VARCHAR              AS rhythm,
        -- Conciliación / Dispensación de medicamentos (no aplican)
        NULL::SMALLINT             AS med_rn,
        NULL::SMALLINT             AS gsn_rn,
        NULL::VARCHAR(255)         AS name,
        NULL::VARCHAR(10)          AS gsn,
        NULL::VARCHAR(12)          AS ndc,
        NULL::SMALLINT             AS etc_rn,
        NULL::VARCHAR(8)           AS etccode,
        NULL::VARCHAR(255)         AS etcdescription
    FROM module_ed.edstays s
    WHERE s.intime < s.outtime   -- Validación: ingreso antes de egreso
),
--------------------------------------------------------------------------------
-- Evento: Salida de Urgencias (ED)
-- Tablas fuente: module_ed.edstays JOIN module_ed.diagnosis
ed_discharge AS (
    SELECT
        s.subject_id,                                      -- ID del paciente
        s.stay_id,                                         -- ID de la estancia ED
        s.hadm_id,                                         -- ID de hospitalización
        s.outtime::TIMESTAMP       AS timestamps,          -- Fecha y hora de salida del ED
        'Salida de Urgencias (ED)'::VARCHAR    AS activity,
        -- Llegada (no aplica)
        NULL::VARCHAR(50)          AS arrival_transport,
        NULL::VARCHAR(1)           AS gender,
        NULL::VARCHAR(60)          AS race,
        -- Atributos de alta
        s.disposition              AS disposition,         -- Método de salida (HOME, ADMITTED, etc.)
        -- Diagnósticos facturados
        d.seq_num                  AS seq_num,             -- Secuencia de diagnóstico
        d.icd_code                 AS icd_code,            -- Código ICD-9/10
        d.icd_version              AS icd_version,         -- Versión ICD
        d.icd_title                AS icd_title,           -- Descripción textual del diagnóstico
        -- Triaje (no aplica)
        NULL::NUMERIC              AS acuity,
        NULL::VARCHAR(255)         AS chiefcomplaint,
        -- Signos vitales (no aplica)
        NULL::NUMERIC              AS temperature,
        NULL::NUMERIC              AS heartrate,
        NULL::NUMERIC(10,4)        AS resprate,
        NULL::NUMERIC              AS o2sat,
        NULL::NUMERIC              AS sbp,
        NULL::NUMERIC              AS dbp,
        NULL::VARCHAR              AS pain,
        NULL::VARCHAR              AS rhythm,
        -- Conciliación / Dispensación de medicamentos (no aplican)
        NULL::SMALLINT             AS med_rn,
        NULL::SMALLINT             AS gsn_rn,
        NULL::VARCHAR(255)         AS name,
        NULL::VARCHAR(10)          AS gsn,
        NULL::VARCHAR(12)          AS ndc,
        NULL::SMALLINT             AS etc_rn,
        NULL::VARCHAR(8)           AS etccode,
        NULL::VARCHAR(255)         AS etcdescription
    FROM module_ed.edstays s
    JOIN module_ed.diagnosis d
      ON s.stay_id = d.stay_id
),
--------------------------------------------------------------------------------
-- Evento: Triaje en Urgencias (ED)
-- Tablas fuente: module_ed.triage JOIN module_ed.edstays
ed_triage AS (
    SELECT
        t.subject_id,                                      -- ID del paciente
        t.stay_id,                                         -- ID de la estancia ED
        s.hadm_id,                                         -- ID de hospitalización
        (s.intime + INTERVAL '1 second')::TIMESTAMP AS timestamps,  -- Imputación de timestamp de triaje
        'Triaje en Urgencias (ED)'::VARCHAR   AS activity,
        -- Llegada / Alta / Diagnóstico (no aplican)
        NULL::VARCHAR(50)          AS arrival_transport,
        NULL::VARCHAR(1)           AS gender,
        NULL::VARCHAR(60)          AS race,
        NULL::VARCHAR(255)         AS disposition,
        NULL::INTEGER              AS seq_num,
        NULL::VARCHAR(8)           AS icd_code,
        NULL::SMALLINT             AS icd_version,
        NULL::VARCHAR              AS icd_title,
        -- Atributos de triaje
        t.acuity                   AS acuity,              -- Nivel de triaje (1–5)
        t.chiefcomplaint           AS chiefcomplaint,      -- Queja principal (texto libre)
        -- Signos vitales en triaje
        t.temperature              AS temperature,
        t.heartrate                AS heartrate,
        t.resprate                 AS resprate,
        t.o2sat                    AS o2sat,
        t.sbp::NUMERIC             AS sbp,
        t.dbp::NUMERIC             AS dbp,
        t.pain                     AS pain,                -- Nivel de dolor 0–10
        NULL::VARCHAR              AS rhythm,
        -- Medicamentos (no aplican)
        NULL::SMALLINT             AS med_rn,
        NULL::SMALLINT             AS gsn_rn,
        NULL::VARCHAR(255)         AS name,
        NULL::VARCHAR(10)          AS gsn,
        NULL::VARCHAR(12)          AS ndc,
        NULL::SMALLINT             AS etc_rn,
        NULL::VARCHAR(8)           AS etccode,
        NULL::VARCHAR(255)         AS etcdescription
    FROM module_ed.triage t
    JOIN module_ed.edstays s
      ON t.stay_id = s.stay_id
    WHERE (s.intime + INTERVAL '1 second') < s.outtime   -- Validación: triaje antes del alta
),
--------------------------------------------------------------------------------
-- Evento: Toma de Constantes Vitales
-- Tablas fuente: module_ed.vitalsign JOIN module_ed.edstays
ed_vitals AS (
    SELECT
        v.subject_id,                                      -- ID del paciente
        v.stay_id,                                         -- ID de la estancia ED
        s.hadm_id,                                         -- ID de hospitalización
        v.charttime::TIMESTAMP     AS timestamps,          -- Fecha y hora de la toma de signos
        'Toma de Constantes Vitales'::VARCHAR  AS activity,
        -- Llegada / Alta / Diagnostics / Triage (no aplican)
        NULL::VARCHAR(50)          AS arrival_transport,
        NULL::VARCHAR(1)           AS gender,
        NULL::VARCHAR(60)          AS race,
        NULL::VARCHAR(255)         AS disposition,
        NULL::INTEGER              AS seq_num,
        NULL::VARCHAR(8)           AS icd_code,
        NULL::SMALLINT             AS icd_version,
        NULL::VARCHAR              AS icd_title,
        NULL::NUMERIC              AS acuity,
        NULL::VARCHAR(255)         AS chiefcomplaint,
        -- Signos vitales registrados
        v.temperature              AS temperature,         -- °F
        v.heartrate                AS heartrate,           -- latidos/min
        v.resprate                 AS resprate,            -- respiraciones/min
        v.o2sat                    AS o2sat,               -- saturación %
        CAST(v.sbp AS NUMERIC)     AS sbp,                 -- presión sistólica mmHg
        CAST(v.dbp AS NUMERIC)     AS dbp,                 -- presión diastólica mmHg
        v.pain                     AS pain,                -- dolor 0–10
        v.rhythm                   AS rhythm,              -- ritmo cardíaco (texto libre)
        -- Medicamentos (no aplican)
        NULL::SMALLINT             AS med_rn,
        NULL::SMALLINT             AS gsn_rn,
        NULL::VARCHAR(255)         AS name,
        NULL::VARCHAR(10)          AS gsn,
        NULL::VARCHAR(12)          AS ndc,
        NULL::SMALLINT             AS etc_rn,
        NULL::VARCHAR(8)           AS etccode,
        NULL::VARCHAR(255)         AS etcdescription
    FROM module_ed.vitalsign v
    JOIN module_ed.edstays s
      ON v.stay_id = s.stay_id
    WHERE v.charttime <= s.outtime   -- Validación: vitales antes del alta
),
--------------------------------------------------------------------------------
-- Evento: Conciliación de Medicamentos
-- Tablas fuente: module_ed.medrecon JOIN module_ed.edstays
ed_medrecon AS (
    SELECT
        m.subject_id,                                      -- ID del paciente
        m.stay_id,                                         -- ID de la estancia ED
        s.hadm_id,                                         -- ID de hospitalización
        m.charttime::TIMESTAMP     AS timestamps,          -- Fecha y hora de conciliación
        'Conciliación de Medicamentos'::VARCHAR AS activity,
        -- Llegada / Alta / Diagnostics / Triage / Vitals (no aplican)
        NULL::VARCHAR(50)          AS arrival_transport,
        NULL::VARCHAR(1)           AS gender,
        NULL::VARCHAR(60)          AS race,
        NULL::VARCHAR(255)         AS disposition,
        NULL::INTEGER              AS seq_num,
        NULL::VARCHAR(8)           AS icd_code,
        NULL::SMALLINT             AS icd_version,
        NULL::VARCHAR              AS icd_title,
        NULL::NUMERIC              AS acuity,
        NULL::VARCHAR(255)         AS chiefcomplaint,
        NULL::NUMERIC              AS temperature,
        NULL::NUMERIC              AS heartrate,
        NULL::NUMERIC(10,4)        AS resprate,
        NULL::NUMERIC              AS o2sat,
        NULL::NUMERIC              AS sbp,
        NULL::NUMERIC              AS dbp,
        NULL::VARCHAR              AS pain,
        NULL::VARCHAR              AS rhythm,
        -- Atributos de conciliación
        NULL::SMALLINT             AS med_rn,
        NULL::SMALLINT             AS gsn_rn,
        m.name                     AS name,                -- Nombre del medicamento
        m.gsn                      AS gsn,                 -- Código GSN
        m.ndc                      AS ndc,                 -- Código NDC
        m.etc_rn                   AS etc_rn,              -- Secuencia ETC
        m.etccode                  AS etccode,             -- Código ETC
        m.etcdescription           AS etcdescription       -- Descripción ETC
    FROM module_ed.medrecon m
    JOIN module_ed.edstays s
      ON m.stay_id = s.stay_id
    WHERE m.charttime <= s.outtime   -- Validación: conciliación antes del alta
),
--------------------------------------------------------------------------------
-- Evento: Dispensación de Medicamentos
-- Tablas fuente: module_ed.pyxis JOIN module_ed.edstays
ed_pyxis AS (
    SELECT
        p.subject_id,                                      -- ID del paciente
        p.stay_id,                                         -- ID de la estancia ED
        s.hadm_id,                                         -- ID de hospitalización
        p.charttime::TIMESTAMP     AS timestamps,          -- Fecha y hora de dispensación
        'Dispensación de Medicamentos'::VARCHAR AS activity,
        -- Llegada / Alta / Diagnostics / Triage / Vitals (no aplican)
        NULL::VARCHAR(50)          AS arrival_transport,
        NULL::VARCHAR(1)           AS gender,
        NULL::VARCHAR(60)          AS race,
        NULL::VARCHAR(255)         AS disposition,
        NULL::INTEGER              AS seq_num,
        NULL::VARCHAR(8)           AS icd_code,
        NULL::SMALLINT             AS icd_version,
        NULL::VARCHAR              AS icd_title,
        NULL::NUMERIC              AS acuity,
        NULL::VARCHAR(255)         AS chiefcomplaint,
        NULL::NUMERIC              AS temperature,
        NULL::NUMERIC              AS heartrate,
        NULL::NUMERIC(10,4)        AS resprate,
        NULL::NUMERIC              AS o2sat,
        NULL::NUMERIC              AS sbp,
        NULL::NUMERIC              AS dbp,
        NULL::VARCHAR              AS pain,
        NULL::VARCHAR              AS rhythm,
        -- Atributos de dispensación
        p.med_rn                   AS med_rn,             -- Número de fila Pyxis
        p.gsn_rn                   AS gsn_rn,             -- Secuencia GSN
        p.name                     AS name,               -- Nombre del medicamento
        p.gsn                      AS gsn,                -- Código GSN
        NULL::VARCHAR(12)          AS ndc,
        NULL::SMALLINT             AS etc_rn,
        NULL::VARCHAR(8)           AS etccode,
        NULL::VARCHAR(255)         AS etcdescription
    FROM module_ed.pyxis p
    JOIN module_ed.edstays s
      ON p.stay_id = s.stay_id
    WHERE p.charttime <= s.outtime   -- Validación: dispensación antes del alta
),
--------------------------------------------------------------------------------
-- Unión de todos los eventos para formar el log final
final_log AS (
    SELECT * FROM ed_arrival
    UNION ALL
    SELECT * FROM ed_discharge
    UNION ALL
    SELECT * FROM ed_triage
    UNION ALL
    SELECT * FROM ed_vitals
    UNION ALL
    SELECT * FROM ed_medrecon
    UNION ALL
    SELECT * FROM ed_pyxis
)
SELECT *
FROM final_log
ORDER BY subject_id ASC, timestamps ASC;
```

#### **7.4. Rendimiento 'coverage' replicación filas de MIMICEL (benchmark).**

**Coverage**: Índice de cobertura entre las filas generadas por la AI Tool y las filas esperadas en el dataset de control MIMICEL.  
  $$ \text{Coverage} = \frac{\text{Rows}_{\text{AI Tool}}}{\text{Rows}_{\text{MIMICEL}}} $$

In [21]:
# Bloque df de métricas rendimiento coverage.
# Nos indicaría que número de filas han generado los scripts SQL de la AI Tool
df_results_ok_coverage = df_results_ok[['uuid', 'coverage']].copy()

# Conteo de casos donde coverage es 1
conteo_coverage_1 = len(df_results_ok_coverage['coverage'][
    (df_results_ok_coverage['coverage'] == 1)
])

print(f"Casos `Coverage=1` perfecto: {conteo_coverage_1} casos.")
# Mostramos el resumen de las métricas de coverage
display(df_results_ok_coverage.describe().round(2))

# Boxplot de coverage
boxplot(
    df_results_ok_coverage, 
    title="Boxplot: Cociente entre Líneas generadas AI Tool y Líneas generadas en MIMICEL (benchmark)",
    value_name="Coverage (Filas Generadas / Filas Esperadas MIMICEL)",
    category_name="evaluation_datetime"
    )


Casos `Coverage=1` perfecto: 0 casos.


Unnamed: 0,coverage
count,15.0
mean,1.01
std,0.02
min,0.98
25%,1.0
50%,1.0
75%,1.0
max,1.06


Se observa como los scripts SQL ejecutados, presentan una mediana cercana al '1', exceptuando 5 casos atípicos.

Esta métrica es complementaria, ya que no asegura la igualdad de los valores entre filas.

Su intención es medir cuantas filas está generando la AI Tool comparándola con las filas del dataset de control MIMICEL.

Valores próximos a 1, indican una cobertura en el número de filas similar entre ambos datasets. 

Si la métrica viene acompañada de valores F1 próximos a 1 en columnas y eventos, nos sugiere que el script generado es candidato a revisión manual para determinar la exactitud de la replicación.



#### **7.5. Rendimiento de la AI Tool en la generación de columnas.**


##### **7.5.1. Rendimiento generación de columnas: True Positive (TP), False Positive (FP), False Negative (FN).**

- **True Positive (TP)**: Columnas **esperadas** en MIMICEL y **generadas** por la AI Tool.  
- **False Negative (FN)**: Columnas **esperadas** en MIMICEL y **no generadas** por la AI Tool.  
- **False Positive (FP)**: Columnas **no esperadas** en MIMICEL y **generadas** por la AI Tool.

In [22]:
# Resumen de las métricas de rendimiento de la clasificación de columnas de la AI Tool
# en la replicación del dataset de control MIMICEL (benchmark)
display(df_columns[['columns_f1', 'columns_precision', 'columns_recall']].describe().round(2))

# Generamos un heatmap con el rendimiento de la clasificación de columnas
# generadas por la AI Tool vs las columnas esperadas en MIMICEL (benchmark)
heatmap(
    df_columns,
    title="Boxplot: Generación de columnas TP, FP y FN AI Tool vs MIMICEL (benchmark)",
    value_columns=['columns_TP', 'columns_FP', 'columns_FN'],
    text_format='%{text}',
    height=400
    )

Unnamed: 0,columns_f1,columns_precision,columns_recall
count,15.0,15.0,15.0
mean,0.93,0.92,0.95
std,0.06,0.1,0.06
min,0.81,0.75,0.77
25%,0.88,0.81,0.94
50%,0.95,0.94,0.97
75%,0.97,1.0,0.98
max,1.0,1.0,1.0


##### **7.5.2. Rendimiento generación de columnas: F1, Precision, Recall.**

- **F1 Score**: Media Armónica entre Precisión y Recall.  
  $$ F_{1_{col}} = 2 \cdot \frac{\text{Precision}_{col} \cdot \text{Recall}_{col}}{\text{Precision}_{col} + \text{Recall}_{col}} $$

- **Precisión**: Proporción de las columnas generadas por la AI Tool presentes en el dataset de control MIMICEL sobre el total de columnas generadas por la AI Tool.  
  $$ \text{Precision}_{col} = \frac{TP_{col}}{TP_{col} + FP_{col}} $$

- **Recall**: Proporción de las columnas esperadas en el dataset de control MIMICEL que fueron generadas por la AI Tool.  
  $$ \text{Recall}_{col} = \frac{TP_{col}}{TP_{col} + FN_{col}} $$

In [23]:
# Generamos un heatmap con el rendimiento de la clasificación de columnas
heatmap(
    df_columns,
    title="Boxplot: Generación de columnas F1, Precision y Recall de la AI Tool vs MIMICEL (benchmark)",
    value_columns=['columns_f1', 'columns_precision', 'columns_recall'],
    text_format='%{text:.2f}',
    height=400
    )

In [24]:
# Mostramos el resumen de las métricas de rendimiento de la clasificación de columnas de la AI Tool
# en la replicación de MIMICEL (benchmark)
display(df_columns[['columns_f1', 'columns_precision', 'columns_recall']].describe().round(2))

# Generamos boxplots con las métricas de rendimiento de la clasificación de 
# columnas generadas por la AI Tool vs las columnas esperadas en MIMICEL (benchmark)    
boxplot(
    df_columns[['uuid','columns_f1', 'columns_precision', 'columns_recall']],
    title="Boxplot: Generación de columnas F1, Precision y Recall de la AI Tool vs MIMICEL (benchmark)",
    value_name='Valor',
    category_name='Métricas de rendimiento clasificación'
    )

Unnamed: 0,columns_f1,columns_precision,columns_recall
count,15.0,15.0,15.0
mean,0.93,0.92,0.95
std,0.06,0.1,0.06
min,0.81,0.75,0.77
25%,0.88,0.81,0.94
50%,0.95,0.94,0.97
75%,0.97,1.0,0.98
max,1.0,1.0,1.0


#### **7.6. Rendimiento de la AI Tool en la generación de eventos.**

##### **7.6.1. Rendimiento generación de eventos: True Positive (TP), False Positive (FP), False Negative (FN).**

- **True Positive (TP)**: Eventos **esperados** en MIMICEL y **generados** por la AI Tool.  
- **False Negative (FN)**: Eventos **esperados** en MIMICEL y **no generados** por la AI Tool.  
- **False Positive (FP)**: Eventos **no esperados** en MIMICEL y **generados** por la AI Tool.

In [25]:
# Generamos resumen y un heatmap de los eventos generados clasificados como TP, FP y FN
display(df_events[['events_TP', 'events_FP', 'events_FN']].describe().round(2))

heatmap(
    df_events,
    title="Boxplot: Generación de eventos TP, FP y FN AI Tool vs MIMICEL (benchmark)",
    value_columns=['events_TP', 'events_FP', 'events_FN'],
    text_format='%{text}',
    height=400
)

Unnamed: 0,events_TP,events_FP,events_FN
count,15.0,15.0,15.0
mean,5.73,1.4,0.27
std,0.46,2.92,0.46
min,5.0,0.0,0.0
25%,5.5,0.0,0.0
50%,6.0,0.0,0.0
75%,6.0,1.0,0.5
max,6.0,9.0,1.0


##### **7.6.2. Rendimiento generación de columnas: F1, Precision, Recall.**

- **F1 Score**: Media Armónica entre Precisión y Recall.  
  $$ F_{1_{eve}} = 2 \cdot \frac{\text{Precision}_{eve} \cdot \text{Recall}_{eve}}{\text{Precision}_{eve} + \text{Recall}_{eve}} $$

- **Precisión**: Proporción de los eventos generados por la AI Tool presentes en el dataset de control MIMICEL sobre el total de eventos generados por la AI Tool.  
  $$ \text{Precision}_{eve} = \frac{TP_{eve}}{TP_{eve} + FP_{eve}} $$

- **Recall**: Proporción de los eventos esperados en el dataset de control MIMICEL que fueron generados por la AI Tool.  
  $$ \text{Recall}_{eve} = \frac{TP_{eve}}{TP_{eve} + FN_{eve}} $$

In [26]:
# Generamos un heatmap con el rendimiento de la clasificación de eventos
# generados por la AI Tool vs los eventos esperados en MIMICEL (benchmark)
heatmap(
    df_events,
    title="Boxplot: Generación de eventos F1, Precision, Recall de la AI Tool vs MIMICEL (benchmark)",
    value_columns=['events_precision', 'events_recall', 'events_f1'],
    text_format='%{text:.2f}',
    height=400
)

In [27]:
# Generamos boxplots con las métricas de rendimiento de la clasificación de 
# eventos generados por la AI Tool vs los eventos esperados en MIMICEL (benchmark)

display(df_events[['events_f1', 'events_precision', 'events_recall']].describe().round(2))

boxplot(
    df_events[['uuid','events_f1', 'events_precision', 'events_recall']],
    title="Boxplot: Generación de eventos F1, Precision, Recall de la AI Tool vs MIMICEL (benchmark)",
    value_name='Valor',
    category_name='Métricas de rendimiento clasificación'
    )

# Histograma en plotly



Unnamed: 0,events_f1,events_precision,events_recall
count,15.0,15.0,15.0
mean,0.9,0.88,0.96
std,0.15,0.2,0.08
min,0.57,0.4,0.83
25%,0.83,0.83,0.92
50%,1.0,1.0,1.0
75%,1.0,1.0,1.0
max,1.0,1.0,1.0


### **8. Resultado final.**

#### **8.1. Test Normalidad (Schapiro)**

In [28]:
df_final_stats_n20 = df_results_clean.iloc[:,:17].copy()

# Bloque n15 de resultados exitosos
df_final_stats_n15 = df_results_ok.iloc[:,18:32].copy()

In [29]:
def shapiro_summary(df):
    result = []
    for col in df.select_dtypes(include=[np.number]).columns:
        # usamos la librería scipy para el test de shapiro
        stat, p = shapiro(df[col].dropna())
        # Creamos un diccionario con los resultados
        result.append({
            "metric": col,
            "n":     df[col].count(),
            "W":     round(stat, 4),
            "pval":  round(p, 4),
            "normal": p >= 0.05       # True se acepta normalidad
        })

    # Lo pasamos a dataframe para evaluar comportamiento.
    return pd.DataFrame(result)

# Test de Shapiro para el bloque n20: Métricas de rendimiento de generación de scripts SQL
schapiro_results_n20 = shapiro_summary(df_final_stats_n20)

# Test de Shapiro para el bloque n15: Métricas de rendimiento replicación de dataset de control MIMICEL
schapiro_results_n15 = shapiro_summary(df_final_stats_n15)

# Capturamos el total de métricas que superan el test
schapiro_true_results_n20 = len(schapiro_results_n20[schapiro_results_n20['normal'] == True])
schapiro_true_results_n15 = len(schapiro_results_n15[schapiro_results_n15['normal'] == True])

print(f"Total Métricas que han superado el test de normalidad Schapiro:" +
        f"{schapiro_true_results_n20 + schapiro_true_results_n15} de " +
        f"{len(schapiro_results_n20) + len(schapiro_results_n15)}.")

# Mostramos los resultados de todas.
display(schapiro_results_n20)
display(schapiro_results_n15)

Total Métricas que han superado el test de normalidad Schapiro:12 de 29.


Unnamed: 0,metric,n,W,pval,normal
0,tokens_total_tool,20,0.9765,0.8812,True
1,tokens_total_retriever_embedding,20,0.8096,0.0012,False
2,tokens_total_sql_generation,20,0.9592,0.5288,True
3,tokens_prompt_sql_generation,20,0.8092,0.0012,False
4,tokens_completion_sql_generation,20,0.9593,0.529,True
5,tokens_total_sql_generation_enhanced,20,0.9676,0.7028,True
6,tokens_prompt_sql_generation_enhanced,20,0.8984,0.0385,False
7,tokens_completion_sql_generation_enhanced,20,0.9313,0.1636,True
8,total_cost_tool_in_dollars,20,0.9702,0.7598,True
9,total_cost_retriever_embedding_in_dollars,20,0.8096,0.0012,False


Unnamed: 0,metric,n,W,pval,normal
0,coverage,15,0.6809,0.0002,False
1,columns_f1,15,0.8882,0.0631,True
2,columns_precision,15,0.777,0.0019,False
3,columns_recall,15,0.7628,0.0013,False
4,columns_TP,15,0.7628,0.0013,False
5,columns_FP,15,0.755,0.001,False
6,columns_FN,15,0.7628,0.0013,False
7,events_f1,15,0.7016,0.0003,False
8,events_precision,15,0.6462,0.0001,False
9,events_recall,15,0.5609,0.0,False


**Nota:**  
Dado que las dos muestras analizadas (n=20 y n=15) son pequeñas y en su mayoría las métricas no superan el test de normalidad. Se decide homogeneizar los cálculos de intervalos de confianza con técnicas bootstrap, para mantener homogeneidad y coherencia sobre los criterios aplicados a las métricas.

#### **8.2. IC mediante Bootstrap**

In [30]:
# Calculamos estadísticas completas junto con IC bootstrap para las métricas de tokens

# Tiempo
df_results_stats_time = df_metrics_bootstrap(df_tiempos)

# Tokens
df_results_stats_tokens = df_metrics_bootstrap(df_tokens)

# Coste
df_results_stats_cost = df_metrics_bootstrap(df_coste)

# Coverage
df_results_stats_coverage = df_metrics_bootstrap(df_results_ok_coverage)

# Generación de eventos
df_results_stats_events = df_metrics_bootstrap(df_events)

# Generación de columnas
df_results_stats_columns = df_metrics_bootstrap(df_columns)


##### **8.2.1. Rendimiento Tiempos de Ejecución por invocación AI Tool.**

In [31]:
# Visualización de los resultados
print("Métricas rendimiento Tiempo")
display(df_results_stats_time)

Métricas rendimiento Tiempo


Unnamed: 0,metric,n,mean,median,std,IQR,min,max,bootstrap_ci95_low,bootstrap_ci95_high
0,time_in_seconds_total,20,116.079,117.588,18.052,17.18,76.213,156.793,108.241,123.735
1,time_in_seconds_retriever,20,1.092,0.807,1.225,0.556,0.374,6.08,0.721,1.691
2,time_in_seconds_sql_generation,20,64.699,66.772,15.112,21.966,39.188,90.274,58.206,71.258
3,time_in_seconds_sql_generation_enhanced,20,50.263,46.406,12.632,13.345,33.754,81.19,45.1,55.904


##### **8.2.2. Rendimiento Consumo de tokens por invocación AI Tool.**

In [32]:
print("Métricas rendimiento Tokens")
display(df_results_stats_tokens)


Métricas rendimiento Tokens


Unnamed: 0,metric,n,mean,median,std,IQR,min,max,bootstrap_ci95_low,bootstrap_ci95_high
0,tokens_total_tool,20,43040.55,43014.5,1925.141,1968.5,39883,47526,42242.25,43866.186
1,tokens_total_retriever_embedding,20,449.05,440.0,40.303,92.0,404,502,432.249,466.9
2,tokens_total_sql_generation,20,20439.8,20132.0,1278.594,1937.75,18435,22743,19896.184,20995.474
3,tokens_total_sql_generation_enhanced,20,22151.7,22040.5,1382.085,1613.25,19975,25352,21582.278,22760.259
4,tokens_prompt_sql_generation,20,13621.8,13615.0,37.399,87.0,13580,13670,13606.099,13638.3
5,tokens_prompt_sql_generation_enhanced,20,16486.5,16390.5,321.271,352.0,16041,17164,16356.6,16631.005
6,tokens_completion_sql_generation,20,6818.0,6533.5,1289.874,1934.75,4765,9074,6266.645,7377.354
7,tokens_completion_sql_generation_enhanced,20,5665.2,5430.0,1385.734,1328.25,3683,8943,5103.449,6284.001


##### **8.2.3. Rendimiento Costes por invocación (USD) AI Tool.**

In [33]:
print("Métricas rendimiento Coste")
display(df_results_stats_cost)

Métricas rendimiento Coste


Unnamed: 0,metric,n,mean,median,std,IQR,min,max,bootstrap_ci95_low,bootstrap_ci95_high
0,total_cost_tool_in_dollars,20,0.088,0.088,0.008,0.007,0.074,0.108,0.085,0.092
1,total_cost_retriever_embedding_in_dollars,20,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,total_cost_sql_generation_in_dollars,20,0.045,0.044,0.006,0.009,0.036,0.055,0.043,0.047
3,total_cost_sql_generation_enhanced_in_dollars,20,0.043,0.042,0.006,0.006,0.034,0.057,0.041,0.046


##### **8.2.4. Rendimiento Coverage. (Líneas generadas / Líneas esperadas en dataset de control MIMICEL)**

In [34]:
print("Métricas rendimiento Coverage")
display(df_results_stats_coverage)

Métricas rendimiento Coverage


Unnamed: 0,metric,n,mean,median,std,IQR,min,max,bootstrap_ci95_low,bootstrap_ci95_high
0,coverage,15,1.008,1.001,0.019,0.0,0.979,1.057,1.0,1.018


##### **8.2.5. Rendimiento Generación de Columnas AI Tool vs Columnas esperadas en dataset de control MIMICEL**

In [35]:
print("Métricas rendimiento Generación de Columnas")
display(df_results_stats_events)

Métricas rendimiento Generación de Columnas


Unnamed: 0,metric,n,mean,median,std,IQR,min,max,bootstrap_ci95_low,bootstrap_ci95_high
0,events_f1,15,0.9,1.0,0.148,0.167,0.571,1.0,0.821,0.967
1,events_precision,15,0.877,1.0,0.202,0.167,0.4,1.0,0.766,0.967
2,events_recall,15,0.956,1.0,0.076,0.083,0.833,1.0,0.911,0.989
3,events_TP,15,5.733,6.0,0.458,0.5,5.0,6.0,5.467,5.933
4,events_FP,15,1.4,0.0,2.923,1.0,0.0,9.0,0.2,3.067
5,events_FN,15,0.267,0.0,0.458,0.5,0.0,1.0,0.067,0.533


##### **8.2.6. Rendimiento Generación de Eventos AI Tool vs Columnas esperadas en dataset de control MIMICEL**

In [36]:
print("Métricas rendimiento Generación de Eventos")
display(df_results_stats_events)

Métricas rendimiento Generación de Eventos


Unnamed: 0,metric,n,mean,median,std,IQR,min,max,bootstrap_ci95_low,bootstrap_ci95_high
0,events_f1,15,0.9,1.0,0.148,0.167,0.571,1.0,0.821,0.967
1,events_precision,15,0.877,1.0,0.202,0.167,0.4,1.0,0.766,0.967
2,events_recall,15,0.956,1.0,0.076,0.083,0.833,1.0,0.911,0.989
3,events_TP,15,5.733,6.0,0.458,0.5,5.0,6.0,5.467,5.933
4,events_FP,15,1.4,0.0,2.923,1.0,0.0,9.0,0.2,3.067
5,events_FN,15,0.267,0.0,0.458,0.5,0.0,1.0,0.067,0.533
