# Generación de datos sintéticos

````{admonition} Resumen 
:class: tip

Este artículo presenta las líneas de trabajo desarrolladas para la generación de un dataset sintético de tamaño y peso de lenguados, con el objetivo de proporcionar una base de datos suficientemente amplia y representativa para el entrenamiento, validación y mejora de modelos predictivos. Se recogen las metodologías utilizadas en la generación de datos sintéticos, incluyendo la modelización estadística de distribuciones empíricas, técnicas de simulación basadas en procesos de crecimiento biológico y enfoques de aprendizaje automático para la síntesis de datos realistas. Además, se analizan los criterios de validación empleados para garantizar que los datos generados reflejen fielmente las tendencias y variabilidad observadas en poblaciones reales de lenguado (*Solea solea*), asegurando así su utilidad en el desarrollo de algoritmos precisos y generalizables para la predicción del peso a partir de variables alometricas.

**Entregable**: E2.2  
**Versión**: 1.0  
**Autor**: Javier Álvarez Osuna  
**Email**: javier.osuna@fishfarmfeeder.com  
**ORCID**: [0000-0001-7063-1279](https://orcid.org/0000-0001-7063-1279)  
**Licencia**: CC-BY-4.0  
**Código proyecto**: IG408M.2025.000.000072

```{image} .././assets/FLATCLASS_logo_publicidad.png
:width: 100%
:align: center
```

````

## Introducción

En el ámbito de la acuicultura de precisión, la caracterización morfométrica de los peces y su relación con el peso corporal constituye un eje central para la optimización de procesos como la clasificación automática, el control de crecimiento y la dosificación alimentaria. En el caso particular de los peces planos en fase de alevinaje —como el lenguado (Solea solea) o el rodaballo (Scophthalmus maximus)—, las variables morfométricas fundamentales incluyen la longitud corporal, la anchura transversal y la altura dorso-ventral, parámetros que definen la geometría del individuo y que se presumen relacionados de forma sistemática con la biomasa individual.

La necesidad de disponer de un dataset suficientemente amplio, representativo y multivariado, que relacione estas variables morfométricas con el peso corporal correspondiente, responde a múltiples consideraciones de carácter estadístico, biológico y computacional. Aun en ausencia de un modelo alométrico explícito que relacione de forma determinista dichas variables, es posible anticipar que cualquier estrategia de inferencia o predicción del peso basada en dimensiones requerirá una densidad adecuada de datos en el espacio tridimensional definido por longitud, anchura y altura. Este requisito es crítico para garantizar tanto la fidelidad del ajuste como la capacidad de generalización del modelo aprendido.

Cuando el volumen de datos disponibles es reducido, surgen una serie de limitaciones estructurales:

- **Alta varianza en la estimación de parámetros**: La precisión de los modelos predictivos decae significativamente cuando las observaciones son escasas o están mal distribuidas en el dominio de entrada.
- **Riesgo de sobreajuste**: En entornos de datos reducidos, los modelos tienden a capturar ruido en lugar de relaciones funcionales genuinas, lo cual compromete la validez externa.
- **Cobertura insuficiente del espacio morfométrico**: Se produce una pérdida de representatividad en las regiones marginales del dominio, lo que reduce la capacidad del sistema para extrapolar o interpolar en condiciones reales de producción.
- **Sesgos estructurales**: Las muestras pequeñas pueden reflejar sesgos en las condiciones de cría, genética o instrumentación, induciendo patrones espurios no generalizables.

Desde la perspectiva de la matemática probabilística, esta problemática puede entenderse mediante el marco de la inferencia bayesiana. En este enfoque, el conocimiento sobre los parámetros $\theta$ (por ejemplo, la relación entre morfología y peso) se representa como una distribución posterior condicionada a los datos $D$:

$$
p(\theta | D) \propto p(D | \theta) \cdot p(\theta)
$$

donde $D$ representa los datos observados. Cuando el tamaño de $D$ es reducido, la función de verosimilitud $p(D|a,b)$ tiene una varianza alta, lo que genera estimaciones más inciertas. Al aumentar el tamaño de $D$ con datos sintéticos plausibles, la estimación de $p(a,b|D)$ se vuelve más precisa, reduciendo la varianza de los parámetros. 

En el contexto de la acuicultura, la recopilación masiva de medidas biométricas de precisión en alevines presenta limitaciones logísticas y económicas significativas. Por tanto, el uso inteligencia artificial para permite simular observaciones adicionales coherentes con la distribución empírica observada, conservando las correlaciones entre las dimensiones corporales y el peso de los individuos.

En este trabajo se abordó la generación de datos sintéticos mediante tres métodos complementarios: **Gaussian Copula**, **CTGAN** y **TVAE**. Esta aproximación multicriterio permite evaluar de manera comparativa la capacidad de cada técnica para replicar no solo las distribuciones marginales de los datos originales, sino también las dependencias no lineales propias de los modelos alométricos, típicos en biología de organismos. La selección final del método más adecuado se basará en un análisis cuantitativo que incluye: (1) métricas de evaluación de la calidad sintética (KS-test, divergencia KL), (2) precisión en la replicación de las ecuaciones alométricas (RMSE entre valores reales y predichos), y (3) viabilidad computacional. Esta comparación sistemática garantizará que los datos sintéticos amplificados mantengan validez ecológica y estadística, priorizando el método que mejor equilibre fidelidad biológica y escalabilidad, para ser usados en los modelos predictivos de peso.

Los estudios sobre generación de datos sintéticos llevasoa a cabo en el marco de FLATCLASS responden por tanto, a una doble motivación: por un lado, **ampliar artificialmente el conjunto de datos disponible** para entrenar modelos predictivos del peso a partir de variables morfométricas; y por otro, **mantener la coherencia estadística y biológica** de los registros generados, minimizando los riesgos de sobreajuste y mejorando la capacidad de generalización de los modelos desarrollados.
