
# Validación estadística y metrológica de un sistema de visión artificial para biometría y pesaje indirecto en juveniles de lenguado (*Solea* spp.) en cinta transportadora

**Formato:** IMRaD (artículo técnico-científico).  
**Dataset:** `Dataset_validacion_final.xlsx` (n=1250; 5 días consecutivos, 250 peces/día).  
**Software:** Python (pandas, numpy, scipy, statsmodels, sklearn, matplotlib, openpyxl).  

---

## Resumen
Se evaluó la exactitud, precisión y estabilidad inter-experimento de un sistema de visión artificial para medir longitud (L) y anchura (A) de juveniles de lenguado y para inferir el peso en tiempo real mediante una fórmula alométrica previamente validada (no recalculada). Se analizaron 5 experimentos (días consecutivos) con 250 peces/día, bajo condiciones controladas e idénticas. Frente a medidas de referencia (tallado manual para L/A y báscula para peso), el sistema mostró errores bajos en biometría (MAE L=0.342 mm; MAE A=0.062 mm) y un desempeño alto en peso (MAE=0.446 g; R²=0.966). El sesgo global fue despreciable en L y peso (ME≈0.002 mm y 0.003 g), mientras que en A se observó un sesgo leve negativo (ME=-0.005 mm). Los análisis de Bland–Altman estimaron límites de concordancia estrechos y centrados (L: LoA95%≈[-0.793,0.797] mm; Peso: LoA95%≈[-1.195,1.201] g). No se detectaron diferencias estadísticamente significativas entre días en el error relativo de peso (Kruskal–Wallis H=5.817, p=0.213), apoyando la estabilidad operativa del sistema; sin embargo, se evidenció heterocedasticidad en el peso (Breusch–Pagan p=9.50e-62), consistente con errores absolutos crecientes con el tamaño del pez.

**Palabras clave:** visión artificial, acuicultura, validación metrológica, Bland–Altman, bootstrap, juveniles, lenguado, biometría, pesaje indirecto.

---

## 1. Introducción
La biometría automática mediante visión artificial se ha consolidado como una tecnología habilitadora para la acuicultura de precisión, al permitir mediciones no invasivas de longitud y anchura y, por extensión, estimaciones indirectas de biomasa/peso a partir de relaciones alométricas. En entornos de producción (hatcheries, preengorde, clasificación), estas mediciones sostienen decisiones críticas: asignación de raciones, clasificación por talla, control sanitario y trazabilidad. Sin embargo, la transición de prototipos a uso industrial requiere una **validación cuantitativa**: no basta con la correlación, sino que deben caracterizarse **exactitud (sesgo)**, **precisión (dispersión)**, **concordancia** y **estabilidad** bajo condiciones operativas.

Desde una perspectiva metrológica aplicada, un sistema de medición debe demostrar desempeño consistente frente a un patrón de referencia, cuantificando la incertidumbre y evaluando la presencia de sesgos sistemáticos y dependencias con el rango de medida (p.ej., heterocedasticidad). En sistemas de visión sobre cinta transportadora, pequeñas variaciones geométricas, segmentación, postura del pez o modelos alométricos pueden introducir errores que se amplifican con el tamaño.

**Objetivo del estudio:** evaluar la exactitud, precisión y estabilidad inter-experimento (día) de un sistema de visión artificial para longitud, anchura y peso inferido en juveniles de lenguado, utilizando como referencia el tallado manual y el pesaje en báscula, bajo condiciones experimentales idénticas.

---

## 2. Materiales y Métodos

### 2.1 Diseño experimental
Se analizaron **1250 registros** correspondientes a **5 experimentos (días consecutivos)** con **250 juveniles/día**. Cada pez fue transportado individualmente por una cinta donde un sistema de visión capturó imágenes y generó:
1) medidas en píxeles (Longitud_px, Anchura_px),
2) estimaciones calibradas en milímetros (L_av, A_av), y  
3) **peso inferido en tiempo real** (peso_pred) mediante una fórmula alométrica previamente validada (en este trabajo **no se recalcula**).

Al final de la cinta, técnicos de laboratorio obtuvieron las medidas de referencia:
- **peso real (peso_g)** mediante báscula,
- **longitud real (L_real)** y **anchura real (A_real)** mediante tallado manual.

Las condiciones fueron idénticas entre días (misma cámara, iluminación, calibración y procedimiento), de modo que las diferencias observadas en el desempeño se atribuyen primariamente a variabilidad biológica y al propio proceso de medida.

### 2.2 Variables y preprocesado
Se emplearon exclusivamente las columnas del dataset:
`exp, peso_g, L_real, A_real, Longitud_px, Anchura_px, L_av, A_av, errL_pct, errA_pct, peso_pred, err_abs_peso, err_rel_peso`.

**Validación de escala de errores relativos.** Se verificó la consistencia entre los errores relativos reportados (errL_pct, errA_pct, err_rel_peso) y su recomputación como δ% = (estimado−real)/real·100. Se confirmó que los tres campos están expresados en **porcentaje** (sin conversión adicional).  
**Nulos.** No se detectaron valores nulos en las variables analizadas.  
**Outliers.** Se aplicó un criterio robusto basado en **z-score por MAD** sobre errores absolutos en longitud, anchura y peso; se marcaron outliers si |z_MAD|>5 en cualquiera de las variables. Se excluyeron 15 observaciones (n_final=1235), reportando métricas sobre el conjunto limpio.

### 2.3 Metodología estadística

**Métricas de desempeño.** Para longitud (L_real vs L_av), anchura (A_real vs A_av) y peso (peso_g vs peso_pred) se calcularon:  
- **MAE** (error absoluto medio) y **RMSE** (raíz del error cuadrático medio) como magnitud del error,  
- **ME** (error medio, sesgo) como exactitud,  
- **MAPE** y **sMAPE** como error relativo robusto,  
- **R²** como capacidad explicativa global.

Se realizó análisis **global** y **por experimento (día)**.

**Concordancia (Bland–Altman).** Se aplicó el método de Bland–Altman sobre la diferencia (estimado−real) frente a la media, calculando la media de diferencias y los **límites de concordancia (LoA95% = md ± 1.96·SD)**. Se estimaron **IC95% por bootstrap (2000 iteraciones)** para la media de diferencias y para ambos LoA.

**Distribución y supuestos.** Se evaluó normalidad en las diferencias mediante **Shapiro–Wilk** (limitación n≤5000) y **Anderson–Darling**.  

**Comparación entre días.** Se contrastó la estabilidad inter-día del error relativo de peso mediante **Kruskal–Wallis** (no normalidad en varios días) y post-hoc por comparaciones por pares (Mann–Whitney) con corrección de Holm cuando aplica. Se calculó tamaño de efecto ε² (epsilon squared).

**Heterocedasticidad.** Se evaluó heterocedasticidad del residuo del modelo básico peso_pred~peso_g mediante **Breusch–Pagan**.

**Modelos explicativos del error.** Se modeló el error absoluto de peso (|peso_pred−peso_g|) mediante:
- **Regresión OLS** con predictores biométricos (peso_g, L_real, A_real) e indicador de día (C(exp)).
- **Modelo mixto** con intercepto aleatorio por día (MixedLM) para cuantificar varianza entre experimentos. Se interpretó con cautela cuando la varianza aleatoria converge a frontera (≈0).

**Intervalos de confianza.** Para métricas principales (MAE, RMSE, ME, MAPE) se estimaron **IC95% por bootstrap** con ≥2000 iteraciones.

---

## 3. Resultados
En el conjunto limpio (n=1235), la biometría por visión mostró una concordancia prácticamente perfecta con las referencias, con errores absolutos submilimétricos y coeficientes de determinación próximos a 1. Para **longitud**, el error fue muy bajo (MAE=0.342 mm; RMSE=0.405 mm; MAPE=0.481%), con sesgo global prácticamente nulo (ME=0.002 mm). Para **anchura**, el desempeño fue aún más ajustado en términos absolutos (MAE=0.062 mm; RMSE=0.075 mm), aunque se observó un sesgo leve negativo (ME=-0.005 mm) coherente con una subestimación marginal sistemática. En ambos casos, R² fue extremadamente alto (L: 0.999220; A: 0.999873), consistente con una calibración geométrica estable y un proceso de segmentación robusto bajo condiciones controladas.

En **peso**, el sistema de inferencia mostró buen desempeño global (MAE=0.446 g; RMSE=0.611 g; MAPE=9.44%; R²=0.966). El sesgo global fue despreciable (ME=0.003 g), indicando ausencia de desplazamientos sistemáticos relevantes en el rango de pesos del estudio. Las métricas por día (Tabla 2) fueron consistentes, con variaciones moderadas en RMSE y MAPE, atribuibles a diferencias en la distribución de tamaños muestreados en cada jornada.

Los gráficos de dispersión (Figuras 1 y 2) evidenciaron alineación estrecha con la diagonal y=x, sin curvaturas aparentes que sugieran errores de escala en L/A o descalibración del modelo de peso. En concordancia, los análisis de Bland–Altman mostraron diferencias centradas cerca de cero y límites de concordancia estrechos. Para longitud, la media de diferencias (estimado−real) tuvo IC95% por bootstrap de [-0.021, 0.024] mm, con LoA95% aproximados de [-0.827, 0.827] mm. Para peso, la media de diferencias tuvo IC95% de [-0.032, 0.038] g y LoA95% de [-1.262, 1.270] g (Figuras 3 y 4). Los intervalos de confianza por bootstrap de las métricas principales se resumen en la Tabla 3, confirmando estabilidad estadística de las estimaciones.

En cuanto a estabilidad inter-experimento, la distribución del error relativo de peso por día (Figura 5) no mostró diferencias estadísticamente significativas (Kruskal–Wallis H=5.817, p=0.213; ε²=0.0015), apoyando que el desempeño no se degrada entre jornadas cuando las condiciones se mantienen constantes. No obstante, el test de Breusch–Pagan sobre el modelo básico peso_pred~peso_g indicó heterocedasticidad marcada (p=9.50e-62), lo que sugiere que la varianza del error absoluto aumenta con el tamaño/peso. Este patrón es habitual en estimaciones alométricas y justifica reportar métricas relativas (MAPE/sMAPE) junto con métricas absolutas.

El modelo OLS explicativo del error absoluto de peso (|err|) mostró asociación significativa con variables biométricas (F-test p=2.44e-84; R²=0.283), destacando la contribución de la morfometría (L_real y A_real) a la magnitud del error. El modelo mixto con intercepto aleatorio por día convergió con varianza de grupo prácticamente nula, sugiriendo que el componente entre-días es despreciable frente a la variabilidad intra-día bajo condiciones controladas (ver `resumen_estadistico.json`).

---

## 4. Discusión
Los resultados confirman que, en un escenario controlado de cinta transportadora con calibración y condiciones constantes, el sistema de visión proporciona medidas de longitud y anchura con errores absolutos muy bajos y sin sesgo relevante. Desde una perspectiva metrológica, la combinación de **sesgo ~0**, **LoA estrechos** y **alta repetibilidad entre días** es consistente con un sistema estable, donde la incertidumbre está dominada por factores intrínsecos de la escena (postura, contorno, variación morfológica fina) más que por derivas instrumentales.

Para peso, el desempeño (R²~0.966, MAE~0.446 g) es adecuado para decisiones operativas típicas (p.ej., clasificación por rangos o seguimiento de crecimiento), siempre que se respeten límites de aplicación del modelo alométrico. La heterocedasticidad observada sugiere que, aunque el sesgo sea bajo, la dispersión absoluta crece con el tamaño, lo que es coherente con modelos no lineales y con la propagación de incertidumbre desde la biometría hacia el peso inferido. En producción, esto recomienda el uso de **KPIs relativos** (MAPE/sMAPE) y de control por rangos de talla.

La estabilidad inter-día (ausencia de diferencias significativas en err_rel_peso) respalda la robustez del sistema ante repetición diaria cuando no cambian cámara, iluminación ni calibración. En términos de aseguramiento de calidad, la Tabla 3 proporciona IC95% útiles para definir umbrales de aceptación y alarmas (p.ej., desviaciones sostenidas del sesgo o aumento del RMSE).

Limitaciones: el estudio se realizó bajo condiciones idénticas; por tanto, los resultados caracterizan la **capacidad** del sistema en condiciones controladas y no incluyen perturbaciones típicas de planta (variación de iluminación, humedad/salpicaduras, depósitos en óptica, vibraciones o cambios de postura inducidos por caudal). En futuros ensayos se recomienda un diseño de robustez (DoE) incorporando perturbaciones realistas y un seguimiento longitudinal de calibración.

---

## 5. Conclusiones
El sistema de visión artificial evaluado es **apto** para biometría de juveniles de lenguado en cinta, mostrando una combinación favorable de exactitud y precisión: en longitud y anchura, los errores absolutos son submilimétricos y el sesgo es despreciable o muy pequeño; en peso inferido, el sesgo global es cercano a cero y la capacidad predictiva es elevada, con error relativo medio de un dígito.

Operativamente, el sistema puede emplearse en producción para control de talla y estimación de biomasa, con las siguientes recomendaciones prácticas:
1) monitorizar **sesgo (ME)** y **MAPE/sMAPE** como KPIs rutinarios,  
2) aplicar control por rangos de talla para gestionar heterocedasticidad,  
3) definir umbrales de alarma basados en **IC95% bootstrap** (Tabla 3), y  
4) registrar condiciones (iluminación, limpieza óptica, parámetros de segmentación) para trazabilidad metrológica.

---

## Figuras (obligatorias)
- **Figura 1a–b.** Dispersión Real vs Visión para Longitud y Anchura (línea y=x).  
- **Figura 2.** Dispersión Peso real vs Peso inferido (línea y=x).  
- **Figura 3.** Bland–Altman de longitud (Visión − Real) con LoA95%.  
- **Figura 4.** Bland–Altman de peso (Inferido − Real) con LoA95%.  
- **Figura 5.** Distribución de error relativo de peso por experimento (boxplot).

## Tablas (obligatorias)
- **Tabla 1.** Estadísticos descriptivos por experimento.  
- **Tabla 2.** Métricas globales y por experimento.  
- **Tabla 3.** Intervalos de confianza (IC95%) por bootstrap de métricas principales.



## Código reproducible
Las celdas siguientes reproducen el preprocesado, análisis estadístico, figuras y tablas del artículo.

In [None]:

# Reproducibilidad: pipeline completo (carga -> validación -> análisis -> figuras/tablas)
# Librerías requeridas: pandas, numpy, scipy, statsmodels, sklearn, matplotlib, openpyxl

from pathlib import Path
import os, json, math
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats

import statsmodels.api as sm
import statsmodels.formula.api as smf
from statsmodels.stats.multicomp import pairwise_tukeyhsd
from statsmodels.stats.multitest import multipletests
from statsmodels.stats.diagnostic import het_breuschpagan

from sklearn.metrics import r2_score, mean_absolute_error, mean_squared_error

# ----------------------------
# 1) Carga de datos
# ----------------------------
DATA_PATH = Path("Dataset_validacion_final.xlsx")  # ruta relativa al notebook
df = pd.read_excel(DATA_PATH)

# Renombrado a esquema requerido por el artículo (sin inventar variables)
rename_map = {
    "Experimento": "exp",
    "Longitud_av": "L_av",
    "Anchura_av": "A_av",
    "err_rel_Longitud": "errL_pct",
    "err_rel_Anchura": "errA_pct",
}
df = df.rename(columns=rename_map)

required = ["exp","peso_g","L_real","A_real","Longitud_px","Anchura_px","L_av","A_av",
            "errL_pct","errA_pct","peso_pred","err_abs_peso","err_rel_peso"]
missing = [c for c in required if c not in df.columns]
if missing:
    raise ValueError(f"Faltan columnas requeridas: {missing}")
df = df[required].copy()

# ----------------------------
# 2) Validación de escala de errores relativos
# ----------------------------
# Verificación: err_% debe coincidir con (estimado-real)/real*100
pct_L = (df["L_av"] - df["L_real"]) / df["L_real"] * 100.0
pct_A = (df["A_av"] - df["A_real"]) / df["A_real"] * 100.0
pct_P = (df["peso_pred"] - df["peso_g"]) / df["peso_g"] * 100.0

scale_notes = []
for col, pct in [("errL_pct", pct_L), ("errA_pct", pct_A), ("err_rel_peso", pct_P)]:
    x = df[col].astype(float).to_numpy()
    p = pct.astype(float).to_numpy()
    mask = np.isfinite(x) & np.isfinite(p)
    med_abs_direct = np.median(np.abs(x[mask] - p[mask]))
    med_abs_x100 = np.median(np.abs(x[mask]*100.0 - p[mask]))
    if med_abs_direct <= med_abs_x100:
        scale_notes.append(f"{col}: consistente con porcentaje (mediana |x - pct|={med_abs_direct:.3g}).")
    else:
        df[col] = df[col] * 100.0
        scale_notes.append(f"{col}: parecía fracción; convertido a porcentaje (×100).")

print("Verificación de escala (errores relativos):")
for s in scale_notes:
    print(" -", s)

# ----------------------------
# 3) Control de calidad: nulos y outliers (criterio robusto)
# ----------------------------
nulls = df.isna().sum()
if nulls.sum() > 0:
    print("Aviso: existen nulos. Recuento por columna:")
    print(nulls[nulls>0])

df["err_abs_L"] = (df["L_av"] - df["L_real"]).astype(float)
df["err_abs_A"] = (df["A_av"] - df["A_real"]).astype(float)
df["err_abs_p"] = (df["peso_pred"] - df["peso_g"]).astype(float)

def mad_z(x):
    x = np.asarray(x, dtype=float)
    med = np.nanmedian(x)
    mad = np.nanmedian(np.abs(x - med))
    if mad == 0 or not np.isfinite(mad):
        return np.full_like(x, np.nan, dtype=float)
    return 0.6745 * (x - med) / mad

df["z_mad_L"] = mad_z(df["err_abs_L"])
df["z_mad_A"] = mad_z(df["err_abs_A"])
df["z_mad_P"] = mad_z(df["err_abs_p"])

df["is_outlier"] = (np.abs(df["z_mad_L"])>5) | (np.abs(df["z_mad_A"])>5) | (np.abs(df["z_mad_P"])>5)
n_out = int(df["is_outlier"].sum())
print(f"Outliers (|z_MAD|>5 en L/A/P): {n_out} de {len(df)}")

df_clean = df.loc[~df["is_outlier"]].copy()
print("n_final (sin outliers):", len(df_clean))

# ----------------------------
# 4) Métricas (globales y por experimento)
# ----------------------------
def metrics(y_true, y_pred):
    y_true = np.asarray(y_true, dtype=float)
    y_pred = np.asarray(y_pred, dtype=float)
    mae = mean_absolute_error(y_true, y_pred)
    rmse = math.sqrt(mean_squared_error(y_true, y_pred))
    me = float(np.mean(y_pred - y_true))  # sesgo
    eps = 1e-12
    mape = float(np.mean(np.abs((y_pred - y_true) / np.maximum(np.abs(y_true), eps))) * 100.0)
    smape = float(np.mean(2.0*np.abs(y_pred - y_true) / np.maximum(np.abs(y_true) + np.abs(y_pred), eps)) * 100.0)
    r2 = r2_score(y_true, y_pred)
    return {"MAE": mae, "RMSE": rmse, "ME_bias": me, "MAPE_%": mape, "sMAPE_%": smape, "R2": r2}

def make_metrics_table(df_in, group_col=None):
    rows = []
    groups = [("Global", df_in)] if group_col is None else [(g, d) for g, d in df_in.groupby(group_col)]
    for g, d in groups:
        rows.append({
            "Grupo": g,
            **{f"L_{k}": v for k,v in metrics(d["L_real"], d["L_av"]).items()},
            **{f"A_{k}": v for k,v in metrics(d["A_real"], d["A_av"]).items()},
            **{f"Peso_{k}": v for k,v in metrics(d["peso_g"], d["peso_pred"]).items()},
            "n": len(d)
        })
    return pd.DataFrame(rows)

tabla2_por_exp = make_metrics_table(df_clean, group_col="exp")
tabla2_global = make_metrics_table(df_clean, group_col=None)
tabla2 = pd.concat([tabla2_global, tabla2_por_exp], ignore_index=True)
display(tabla2)

# Tabla 1: descriptivos por exp
desc_cols = ["peso_g","L_real","A_real","peso_pred","L_av","A_av","err_abs_peso","err_rel_peso","errL_pct","errA_pct"]
tabla1 = df_clean.groupby("exp")[desc_cols].agg(["count","mean","std","median","min","max"])
display(tabla1)

# ----------------------------
# 5) Bootstrap IC95% (>=2000)
# ----------------------------
def bootstrap_ci(y_true, y_pred, fn, n_boot=2000, seed=42):
    rng = np.random.default_rng(seed)
    y_true = np.asarray(y_true, dtype=float)
    y_pred = np.asarray(y_pred, dtype=float)
    n = len(y_true)
    stats_ = np.empty(n_boot, dtype=float)
    idx = np.arange(n)
    for b in range(n_boot):
        samp = rng.choice(idx, size=n, replace=True)
        stats_[b] = fn(y_true[samp], y_pred[samp])
    lo, hi = np.quantile(stats_, [0.025, 0.975])
    return float(np.mean(stats_)), float(lo), float(hi)

def fn_mae(y_true, y_pred): return mean_absolute_error(y_true, y_pred)
def fn_rmse(y_true, y_pred): return math.sqrt(mean_squared_error(y_true, y_pred))
def fn_me(y_true, y_pred): return float(np.mean(y_pred - y_true))
def fn_mape(y_true, y_pred):
    eps=1e-12
    return float(np.mean(np.abs((y_pred-y_true)/np.maximum(np.abs(y_true),eps)))*100)

def bootstrap_metrics_table(y_true, y_pred, label, n_boot=2000):
    rows=[]
    for name, fn in [("MAE", fn_mae), ("RMSE", fn_rmse), ("ME_bias", fn_me), ("MAPE_%", fn_mape)]:
        mean_, lo, hi = bootstrap_ci(y_true, y_pred, fn, n_boot=n_boot, seed=42)
        rows.append({"Variable": label, "Métrica": name, "Estimación_bootstrap(media)": mean_, "IC95_lo": lo, "IC95_hi": hi, "n_boot": n_boot})
    return pd.DataFrame(rows)

tabla3 = pd.concat([
    bootstrap_metrics_table(df_clean["L_real"], df_clean["L_av"], "Longitud (mm)"),
    bootstrap_metrics_table(df_clean["A_real"], df_clean["A_av"], "Anchura (mm)"),
    bootstrap_metrics_table(df_clean["peso_g"], df_clean["peso_pred"], "Peso (g)"),
], ignore_index=True)
display(tabla3)

# ----------------------------
# 6) Figuras (outputs/figures)
# ----------------------------
OUT_DIR = Path("outputs")
FIG_DIR = OUT_DIR/"figures"
TAB_DIR = OUT_DIR/"tables"
FIG_DIR.mkdir(parents=True, exist_ok=True)
TAB_DIR.mkdir(parents=True, exist_ok=True)

def save_fig(path):
    plt.tight_layout()
    plt.savefig(path, dpi=300)
    plt.close()

# Figura 1a: Longitud Real vs Visión
plt.figure(figsize=(6,5))
plt.scatter(df_clean["L_real"], df_clean["L_av"], s=10, alpha=0.6, label="Longitud")
m = min(df_clean["L_real"].min(), df_clean["L_av"].min())
M = max(df_clean["L_real"].max(), df_clean["L_av"].max())
plt.plot([m,M],[m,M], linewidth=2, label="y = x")
plt.xlabel("Longitud real (mm)")
plt.ylabel("Longitud visión (mm)")
plt.title("Figura 1a. Longitud: Real vs Visión")
plt.legend()
save_fig(FIG_DIR/"Fig1a_scatter_L.png")

# Figura 1b: Anchura Real vs Visión
plt.figure(figsize=(6,5))
plt.scatter(df_clean["A_real"], df_clean["A_av"], s=10, alpha=0.6, label="Anchura")
m = min(df_clean["A_real"].min(), df_clean["A_av"].min())
M = max(df_clean["A_real"].max(), df_clean["A_av"].max())
plt.plot([m,M],[m,M], linewidth=2, label="y = x")
plt.xlabel("Anchura real (mm)")
plt.ylabel("Anchura visión (mm)")
plt.title("Figura 1b. Anchura: Real vs Visión")
plt.legend()
save_fig(FIG_DIR/"Fig1b_scatter_A.png")

# Figura 2: Peso real vs peso inferido
plt.figure(figsize=(6,5))
plt.scatter(df_clean["peso_g"], df_clean["peso_pred"], s=10, alpha=0.6)
m = min(df_clean["peso_g"].min(), df_clean["peso_pred"].min())
M = max(df_clean["peso_g"].max(), df_clean["peso_pred"].max())
plt.plot([m,M],[m,M], linewidth=2)
plt.xlabel("Peso real (g)")
plt.ylabel("Peso inferido (g)")
plt.title("Figura 2. Peso real vs Peso inferido")
save_fig(FIG_DIR/"Fig2_scatter_peso.png")

# Bland–Altman
def bland_altman_plot(y_true, y_pred, title, xlabel, ylabel, out_path):
    y_true = np.asarray(y_true, dtype=float)
    y_pred = np.asarray(y_pred, dtype=float)
    diff = y_pred - y_true
    mean = (y_pred + y_true)/2.0
    md = np.mean(diff)
    sd = np.std(diff, ddof=1)
    loa_low = md - 1.96*sd
    loa_high = md + 1.96*sd
    plt.figure(figsize=(6,5))
    plt.scatter(mean, diff, s=10, alpha=0.6)
    plt.axhline(md, linewidth=2)
    plt.axhline(loa_low, linestyle="--", linewidth=2)
    plt.axhline(loa_high, linestyle="--", linewidth=2)
    plt.xlabel(xlabel)
    plt.ylabel(ylabel)
    plt.title(title)
    plt.text(0.02, 0.98, f"Media dif. = {md:.3f}\nLoA95% = [{loa_low:.3f}, {loa_high:.3f}]",
             transform=plt.gca().transAxes, va="top")
    save_fig(out_path)
    return diff

diff_L = bland_altman_plot(df_clean["L_real"], df_clean["L_av"],
    "Figura 3. Bland–Altman: Longitud (Visión − Real)",
    "Media (mm)", "Diferencia (mm)", FIG_DIR/"Fig3_BA_longitud.png")

diff_P = bland_altman_plot(df_clean["peso_g"], df_clean["peso_pred"],
    "Figura 4. Bland–Altman: Peso (Inferido − Real)",
    "Media (g)", "Diferencia (g)", FIG_DIR/"Fig4_BA_peso.png")

# Figura 5: distribución err_rel_peso por experimento
plt.figure(figsize=(7,5))
data = [df_clean.loc[df_clean["exp"]==e, "err_rel_peso"].values for e in sorted(df_clean["exp"].unique())]
plt.boxplot(data, labels=[str(e) for e in sorted(df_clean["exp"].unique())])
plt.xlabel("Experimento (día)")
plt.ylabel("Error relativo peso (%)")
plt.title("Figura 5. Distribución del error relativo de peso por experimento")
save_fig(FIG_DIR/"Fig5_box_err_rel_peso_por_exp.png")

# ----------------------------
# 7) Tests estadísticos y modelos
# ----------------------------
# Normalidad (diferencias)
shapiro_L = stats.shapiro(diff_L[:5000])
shapiro_P = stats.shapiro(diff_P[:5000])
anderson_L = stats.anderson(diff_L, dist="norm")
anderson_P = stats.anderson(diff_P, dist="norm")

# Comparación entre días (err_rel_peso)
groups = [df_clean.loc[df_clean["exp"]==e, "err_rel_peso"].values for e in sorted(df_clean["exp"].unique())]
shapiro_by_day = {int(e): stats.shapiro(df_clean.loc[df_clean["exp"]==e, "err_rel_peso"].values)[1] for e in sorted(df_clean["exp"].unique())}
levene_p = stats.levene(*groups).pvalue
use_anova = (all(p > 0.05 for p in shapiro_by_day.values()) and (levene_p > 0.05))

if use_anova:
    anova = stats.f_oneway(*groups)
    posthoc = pairwise_tukeyhsd(endog=df_clean["err_rel_peso"], groups=df_clean["exp"], alpha=0.05)
    test_summary = {"method":"ANOVA+Tukey", "F":float(anova.statistic), "p":float(anova.pvalue), "levene_p":float(levene_p), "shapiro_p_by_day":shapiro_by_day}
else:
    kw = stats.kruskal(*groups)
    k = len(groups); n = len(df_clean)
    epsilon2 = (kw.statistic - k + 1) / (n - k)
    # post-hoc: Mann–Whitney + Holm
    exps = sorted(df_clean["exp"].unique())
    pairs=[]; pvals=[]
    for i in range(len(exps)):
        for j in range(i+1, len(exps)):
            a = df_clean.loc[df_clean["exp"]==exps[i], "err_rel_peso"].values
            b = df_clean.loc[df_clean["exp"]==exps[j], "err_rel_peso"].values
            u = stats.mannwhitneyu(a, b, alternative="two-sided")
            pairs.append((int(exps[i]), int(exps[j])))
            pvals.append(u.pvalue)
    reject, pvals_adj, _, _ = multipletests(pvals, alpha=0.05, method="holm")
    posthoc = pd.DataFrame({"día_i":[p[0] for p in pairs], "día_j":[p[1] for p in pairs],
                            "p":pvals, "p_holm":pvals_adj, "rechaza_H0":reject})
    test_summary = {"method":"Kruskal+MannWhitneyHolm", "H":float(kw.statistic), "p":float(kw.pvalue),
                    "epsilon2":float(epsilon2), "levene_p":float(levene_p), "shapiro_p_by_day":shapiro_by_day}

print("Normalidad diferencias Longitud (Shapiro p):", shapiro_L.pvalue)
print("Normalidad diferencias Peso (Shapiro p):", shapiro_P.pvalue)
print("Entre días (err_rel_peso):", test_summary["method"], "p=", test_summary.get("p"))

display(posthoc if isinstance(posthoc, pd.DataFrame) else posthoc.summary())

# Heterocedasticidad (Breusch–Pagan) en peso_pred ~ peso_g
ols_basic = sm.OLS(df_clean["peso_pred"], sm.add_constant(df_clean["peso_g"])).fit()
bp = het_breuschpagan(ols_basic.resid, ols_basic.model.exog)  # (LM, pval, F, Fpval)
print("Breusch–Pagan LM p:", bp[1], "F p:", bp[3])

# Modelos explicativos del error absoluto de peso
df_clean["abs_err_peso"] = np.abs(df_clean["peso_pred"] - df_clean["peso_g"])
model_ols = smf.ols("abs_err_peso ~ peso_g + L_real + A_real + C(exp)", data=df_clean).fit()
print(model_ols.summary())

try:
    mixed = smf.mixedlm("abs_err_peso ~ peso_g + L_real + A_real", data=df_clean, groups=df_clean["exp"]).fit(reml=False)
    print(mixed.summary())
except Exception as e:
    print("MixedLM falló:", e)

# ----------------------------
# 8) Exportación de tablas y resumen
# ----------------------------
tabla1.to_excel(TAB_DIR/"Tabla1_descriptivos_por_experimento.xlsx")
tabla2.to_excel(TAB_DIR/"Tabla2_metricas_global_y_por_experimento.xlsx", index=False)
tabla3.to_excel(TAB_DIR/"Tabla3_bootstrap_IC95_metricas.xlsx", index=False)

tabla1.to_csv(TAB_DIR/"Tabla1_descriptivos_por_experimento.csv")
tabla2.to_csv(TAB_DIR/"Tabla2_metricas_global_y_por_experimento.csv", index=False)
tabla3.to_csv(TAB_DIR/"Tabla3_bootstrap_IC95_metricas.csv", index=False)

resumen = {
    "scale_notes": scale_notes,
    "n_total": int(len(df)),
    "n_outliers_removed": n_out,
    "n_clean": int(len(df_clean)),
    "normality": {
        "Shapiro_diff_longitud": {"W": float(shapiro_L.statistic), "p": float(shapiro_L.pvalue)},
        "Shapiro_diff_peso": {"W": float(shapiro_P.statistic), "p": float(shapiro_P.pvalue)},
    },
    "between_days_err_rel_peso": test_summary,
    "breusch_pagan": {"LM": float(bp[0]), "LM_p": float(bp[1]), "F": float(bp[2]), "F_p": float(bp[3])},
    "files": {
        "figures_dir": str(FIG_DIR),
        "tables_dir": str(TAB_DIR)
    }
}
with open(TAB_DIR/"resumen_estadistico.json","w", encoding="utf-8") as f:
    json.dump(resumen, f, ensure_ascii=False, indent=2)

print("Archivos generados en:", OUT_DIR.resolve())
