# Generación de datos sintéticos

````{admonition} Resumen 
:class: tip

Este artículo presenta las líneas de trabajo desarrolladas para la generación de un dataset sintético de tamaño y peso de lenguados, con el objetivo de proporcionar una base de datos suficientemente amplia y representativa para el entrenamiento, validación y mejora de modelos predictivos. Se recogen las metodologías utilizadas en la generación de datos sintéticos, incluyendo la modelización estadística de distribuciones empíricas, técnicas de simulación basadas en procesos de crecimiento biológico y enfoques de aprendizaje automático para la síntesis de datos realistas. Además, se analizan los criterios de validación empleados para garantizar que los datos generados reflejen fielmente las tendencias y variabilidad observadas en poblaciones reales de lenguado (*Solea solea*), asegurando así su utilidad en el desarrollo de algoritmos precisos y generalizables para la predicción del peso a partir de variables alometricas.

**Entregable**: E2.2  
**Versión**: 1.0  
**Autor**: Javier Álvarez Osuna  
**Email**: javier.osuna@fishfarmfeeder.com  
**ORCID**: [0000-0001-7063-1279](https://orcid.org/0000-0001-7063-1279)  
**Licencia**: CC-BY-4.0  
**Código proyecto**: IG408M.2025.000.000072

```{figure} .././assets/FLATCLASS_logo_publicidad.png
:width: 100%
:align: center
```

````

## Introducción

En el ámbito de la acuicultura de precisión, la caracterización morfométrica de los peces y su relación con el peso corporal constituye un eje central para la optimización de procesos como la clasificación automática, el control de crecimiento y la dosificación alimentaria. En el caso particular de los peces planos en fase de alevinaje —como el lenguado (Solea solea) o el rodaballo (Scophthalmus maximus)—, las variables morfométricas fundamentales incluyen la longitud corporal, la anchura transversal y la altura dorso-ventral, parámetros que definen la geometría del individuo y que se presumen relacionados de forma sistemática con la biomasa individual.

La necesidad de disponer de un dataset suficientemente amplio, representativo y multivariado, que relacione estas variables morfométricas con el peso corporal correspondiente, responde a múltiples consideraciones de carácter estadístico, biológico y computacional. Aun en ausencia de un modelo alométrico explícito que relacione de forma determinista dichas variables, es posible anticipar que cualquier estrategia de inferencia o predicción del peso basada en dimensiones requerirá una densidad adecuada de datos en el espacio tridimensional definido por longitud, anchura y altura. Este requisito es crítico para garantizar tanto la fidelidad del ajuste como la capacidad de generalización del modelo aprendido.

Cuando el volumen de datos disponibles es reducido, surgen una serie de limitaciones estructurales:

- **Alta varianza en la estimación de parámetros**: La precisión de los modelos predictivos decae significativamente cuando las observaciones son escasas o están mal distribuidas en el dominio de entrada.
- **Riesgo de sobreajuste**: En entornos de datos reducidos, los modelos tienden a capturar ruido en lugar de relaciones funcionales genuinas, lo cual compromete la validez externa.
- **Cobertura insuficiente del espacio morfométrico**: Se produce una pérdida de representatividad en las regiones marginales del dominio, lo que reduce la capacidad del sistema para extrapolar o interpolar en condiciones reales de producción.
- **Sesgos estructurales**: Las muestras pequeñas pueden reflejar sesgos en las condiciones de cría, genética o instrumentación, induciendo patrones espurios no generalizables.

Desde la perspectiva de la matemática probabilística, esta problemática puede entenderse mediante el marco de la inferencia bayesiana. En este enfoque, el conocimiento sobre los parámetros $\theta$ (por ejemplo, la relación entre morfología y peso) se representa como una distribución posterior condicionada a los datos $D$:

$$
p(\theta | D) \propto p(D | \theta) \cdot p(\theta)
$$

donde $D$ representa los datos observados. Cuando el tamaño de $D$ es reducido, la función de verosimilitud $p(D|a,b)$ tiene una varianza alta, lo que genera estimaciones más inciertas. Al aumentar el tamaño de $D$ con datos sintéticos plausibles, la estimación de $p(a,b|D)$ se vuelve más precisa, reduciendo la varianza de los parámetros. 

En este trabajo se ha empleado una arquitectura de **Redes Generativas Adversarias (GAN, por sus siglas en inglés)** como estrategia para la **generación de datos sintéticos tabulares** que relacionan variables morfométricas de juveniles de peces planos (longitud, anchura y altura) con el peso corporal correspondiente. Las GANs, originalmente concebidas para tareas de síntesis de imágenes [[Goodfellow et al., 2014](https://doi.org/10.1145/3422622)], han demostrado en los últimos años una notable capacidad para modelar distribuciones complejas en espacios tabulares multivariantes, especialmente en dominios donde los datos reales son escasos o costosos de obtener.

En el contexto de la acuicultura, la recopilación masiva de medidas biométricas de precisión en alevines presenta limitaciones logísticas y económicas significativas. Por tanto, el uso de GANs permite simular observaciones adicionales coherentes con la distribución empírica observada, conservando las correlaciones entre las dimensiones corporales y el peso de los individuos. En este estudio se ha diseñado una GAN compuesta por dos redes neuronales multicapas —un generador y un discriminador— entrenadas adversarialmente sobre un conjunto limitado de datos reales, lo que permite sintetizar de forma controlada nuevos registros morfométricos plausibles y estadísticamente robustos.

Diversos estudios recientes avalan el uso de GANs para la generación de datos tabulares continuos en contextos biológicos y clínicos. Por ejemplo, [Xu et al. (2023)](https://doi.org/10.1007/s00778-023-00807-y) demuestran que las GANs superan a técnicas convencionales de síntesis en la preservación de estructuras de dependencia no lineal en variables tabulares reales de alta dimensión. Asimismo, [Lin et al. (2023)](https://doi.org/10.3389/fdata.2023.1296508) introducen **CTAB-GAN+**, una variante especial que mejora la fidelidad y utilidad de los datos generados en dominios tabulares complejos, destacando su aplicabilidad en entornos de escasez de datos

El uso de GANs en este trabajo responde, por tanto, a una doble motivación: por un lado, **ampliar artificialmente el conjunto de datos disponible** para entrenar modelos predictivos del peso a partir de variables morfométricas; y por otro, **mantener la coherencia estadística y biológica** de los registros generados, minimizando los riesgos de sobreajuste y mejorando la capacidad de generalización de los modelos desarrollados.

## Fundamento teórico

Las redes antagónicas generativas o redes adversarias generativas (GANs) son un método para la optimización competitivo entre dos redes neuronales, una llamada generadora y otra discriminadora, con el objetivo de conseguir generar nuevas instancias idealmente indistinguibles a las pertenecientes a la distribución de probabilidad de la que derivan los datos de entrenamiento.

El fundamento teórico general del que derivan, permite su utilización para la generación de cualquier tipo de datos, habiéndose demostrado efectiva en campos diversos como son la visión por computador [[Roy et al., 2015](https://doi.org/10.48550/arXiv.1505.03906), [Karras et al., 2017](https://doi.org/10.48550/arXiv.1710.10196)], la segmentación semántica [[Hoffman et al., 2017](https://doi.org/10.48550/arXiv.1711.03213)], la síntesis de series temporales [[Hartmann et al., 2018](https://doi.org/10.48550/arXiv.1806.01875)], la edición de imagen [[Abdal et al., 2020](
https://doi.org/10.1145/3447648)], el procesamiento del lenguaje natural [[Fedus et al., 2018](https://doi.org/10.48550/arXiv.1801.07736)], la generación de imagen a partir de texto [[Radford et al., 2021](
https://doi.org/10.48550/arXiv.2103.00020)] y más recientemente en la generación de datos tabulares complejos [[Lin et al. 2023](https://doi.org/10.3389/fdata.2023.1296508)].

Para cualquier conjunto de datos, podemos hipotetizar que es posible definir una distribución de probabilidad $P_{data}$ representativa de la población representada por la muestra formada por el conjunto de datos. De ser esto posible, para cualquier valor de $x$ será posible establecer un valor $P_{data}(x)$ que determine la probabilidad de que $x$ pertenezca a la población. De existir una función de este tipo, sería una función discriminativa que dada una instancia permitiría conocer la probabilidad de pertenencia a la población. Los modelos generativos modelizan la distribución de probabilidad mencionada pero no proporcionan un valor de probabilidad, sino que generan instancias nuevas que pertenecen a distribuciones de probabilidad próximas a la que pretenden asemejar. Las GANs definen un esquema de aprendizaje que facilita la codificación de los atributos definitorios de la distribución de probabilidad en una red neuronal de manera que la red incorpore la información esencial que le permite generar instancias pertenecientes a distribuciones de probabilidad próximas a la que el conjunto de datos que pretende representar.

La arquitectura de las Redes Generativas Adversarias (GAN, por sus siglas en inglés) se basa en la interacción entre dos redes neuronales que trabajan de forma opuesta pero complementaria: una red generadora $(G)$ y una red discriminadora $(D)$. La red generadora tiene como objetivo crear datos sintéticos que imiten con la mayor fidelidad posible los datos reales del conjunto original. Por su parte, la red discriminadora actúa como un detector, cuya tarea es evaluar si una determinada entrada procede del conjunto de datos reales o ha sido generada artificialmente por $G$.

Durante el proceso de entrenamiento, ambas redes se enfrentan en un proceso competitivo. La generadora intenta “engañar” a la discriminadora creando datos cada vez más realistas, mientras que la discriminadora se entrena para detectar con mayor precisión las falsificaciones. Este enfoque adversarial permite que ambas redes mejoren progresivamente: $G$ produce datos sintéticos más convincentes y $D$ refina sus capacidades de detección. Esta dinámica se puede entender como un juego de suma cero, donde el éxito de una red implica el fracaso de la otra, y que teóricamente puede llevar a un punto en el que ninguna de las redes puede mejorar su rendimiento sin afectar negativamente a la otra (equilibrio de Nash).

```{figure} .././assets/Modelo_GAN.png
:name: Figura_3.1
:alt: Diagrama del proceso de entrenamiento de las redes adversarias generativas
:width: 100%
:align: center
```

En la figura se muestra un diagrama representativo del proceso de optimización de las GAN. La **red generadora** $G(z)$ recibe como entrada un vector de ruido aleatorio $z$, generado a partir de una distribución conocida $p_z$, y produce como salida un dato sintético $x_{fake}$ que intenta imitar los datos reales. La **red discriminadora** $D(x)$ recibe como entrada un dato $x_{real}$  o $x_{fake}$ (generado) y devuelve una probabilidad `D(x)` entre $0$ y $1$ que indica cuán probable es que $x$ provenga del conjunto real de datos.

Amabas redes se consideran antagónicas dado que sus objetivos son opuestos:

- $D$ quiere **maximizar** la probabilidad de detectar correctamente los datos reales y rechazar los sintéticos.
- $G$ quiere **minimizar** la probabilidad de que $D$ detecte que sus datos son falsos.

El proceso se modela como un **juego de suma cero** mediante la siguiente función objetivo:

$$
\min_G \max_D V(D, G) = \mathbb{E}_{x \sim p_{\text{datos}}(x)}[\log D(x)] + \mathbb{E}_{z \sim p_z(z)}[\log(1 - D(G(z)))]
$$

- El primer término recompensa a $D$ por identificar correctamente datos reales.
- El segundo término recompensa a $D$ por detectar correctamente los datos generados por $G$.

Mientras tanto, $G$ intenta minimizar esta función engañando a $D$, es decir, haciendo que $D(G(z))$ sea lo más cercano posible a 1.

Durante el entrenamiento, ambas redes mejoran iterativamente. Teóricamente, el proceso puede converger a un **equilibrio de Nash**, en el que $G$ genera datos tan similares a los reales que $D$ no puede distinguir entre ellos, y devuelve aproximadamente:

$$
D(x) \approx 0.5
$$

En ese punto, el sistema ha alcanzado un equilibrio: ni $G$ ni $D$ pueden mejorar sin perjudicar a la otra red.

## Algoritmo generador de datos morfométricos

Este algoritmo entrena una Red Generativa Adversa (GAN) usando `TensorFlow`para generar $N$ registros sintéticos de longitud, anchura, altura y peso de juveniles de lenguado, usando como punto de partida el dataset obtenido en condiciones reales de medición única ([**Obtención y etiquetado del Dataset-E2.1**](./Dataset.ipynb))

In [1]:
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras import layers, models, optimizers
from sklearn.preprocessing import MinMaxScaler

### Carga y procesamiento de datos

In [2]:
# Cargar datos
df = pd.read_excel(".././data/Dimensiones_lenguado.xlsx", sheet_name="Hoja1")

# Selección de variables relevantes
data = df[['Longitud (cm)', 'Anchura (cm)', 'Altura (cm)', 'Peso (g)']].values

# Escalado [0,1]
scaler = MinMaxScaler()
data_scaled = scaler.fit_transform(data)

Las GANs son especialmente sensibles a desequilibrios de escala entre las variables de entrada y salida. Sin una normalización adecuada, las activaciones internas de las capas neuronales pueden caer en regiones no óptimas de las funciones de activación, dificultando la retropropagación del gradiente. Al restringir los datos al rango $[0, 1]$, se asegura que la salida del generador y la entrada del discriminador se mantengan dentro de un dominio numérico estable, lo cual:
 - Facilita la convergencia del entrenamiento.
 - Evita gradientes explosivos o desvanecidos.
 - Mejora la capacidad del generador para aproximar la distribución objetivo.

### Definición de la arquitectura GAN

In [3]:
###############################
#      ARQUITECTURA GAN
###############################

latent_dim = 32

# Generador
def build_generator():
    model = models.Sequential([
        layers.Dense(64, activation="relu", input_dim=latent_dim),
        layers.Dense(64, activation="relu"),
        layers.Dense(4, activation="sigmoid")
    ])
    return model

# Discriminador
def build_discriminator():
    model = models.Sequential([
        layers.Dense(64, input_shape=(4,), activation="leaky_relu"),
        layers.Dense(64, activation="leaky_relu"),
        layers.Dense(1, activation="sigmoid")
    ])
    return model

El código define la arquitectura básica de una Red Generativa Adversaria (GAN) compuesta por dos redes neuronales artificiales: el generador (`build_generator()`) y el discriminador (`build_discriminator`), ambas implementadas mediante modelos secuenciales.

El generador tiene como entrada un vector de ruido aleatorio de dimensión 32 (`latent_dim = 32`). Este vector es transformado a través de dos capas densas ocultas con 64 neuronas cada una y función de activación `ReLU`, seguidas por una capa de salida con 4 neuronas y activación sigmoide, cuya función es producir una muestra sintética normalizada de cuatro variables continuas (en este caso: longitud, anchura, altura y peso de un pez). Por su parte, el discriminador recibe como entrada una muestra de 4 variables —ya sea real o generada— y la procesa mediante dos capas densas de 64 neuronas con activación `LeakyReLU`, seguida de una capa de salida con una única neurona y activación sigmoide que devuelve una probabilidad de autenticidad.

En ambos casos se ha usado una **función de activación sigmoide**. Èsta es una función matemática del tipo:

$$ \sigma(x) = \frac{1}{1 + e^{-x}}$$

cuya salida se restringe al rango $[0, 1]$. Esta función es la elección idónea cuando se requiere interpretar la salida de una neurona como una probabilidad o como una variable continua normalizada. En el caso del generador definido en el código, la activación sigmoide se aplica en la capa de salida para garantizar que cada una de las cuatro variables generadas (longitud, anchura, altura y peso) esté contenida dentro del rango $[0, 1]$, en coherencia con el preprocesamiento previo de los datos reales mediante normalización `MinMaxScaler()`. Esto permite una comparación justa y estable entre las muestras sintéticas y las reales durante el entrenamiento competitivo. Asimismo, en el discriminador, la activación sigmoide en la salida final se justifica porque su tarea es emitir una probabilidad de veracidad —esto es, si una muestra es real (próxima a 1) o generada (próxima a 0)—, lo que hace que la sigmoide sea la elección natural para tareas de clasificación binaria dentro del marco de aprendizaje profundo.

La **función de activación `ReLU` (Rectified Linear Unit)** es una de las funciones no lineales más utilizadas en redes neuronales profundas debido a su simplicidad y eficacia computacional. Se define como $\text{ReLU}(x) = \max(0, x)$, lo que implica que las salidas negativas se eliminan (se convierten en cero) mientras que las positivas se mantienen sin alteración. Esta propiedad introduce no linealidad en la red neuronal, permite que las neuronas se activen solo cuando es necesario y, al mismo tiempo, evita problemas de saturación que se presentan en otras funciones. Sin embargo, `ReLU` puede presentar el problema del “apagado de neuronas” (dead neurons), cuando los valores de entrada son negativos de forma persistente, impidiendo que esas neuronas contribuyan al aprendizaje.

Para mitigar este problema, se utiliza la **función de activación `Leaky ReLU`**, una variante que introduce una pequeña pendiente negativa para los valores menores que cero. Su definición es:

$$
\text{LeakyReLU}(x) =
\begin{cases}
x & \text{si } x \geq 0 \\
\alpha x & \text{si } x < 0
\end{cases}
$$

donde $\alpha$ es un pequeño valor positivo, típicamente $0.01$. Esta modificación permite que las neuronas continúen actualizando sus pesos incluso cuando sus entradas son negativas, lo que favorece una mejor propagación del gradiente durante el entrenamiento y mejora la robustez de la red.

En el código anterior, se ha optado por emplear `ReLU` en el generador para promover una activación fuerte y directa a partir del espacio latente, mientras que en el discriminador se utiliza `LeakyReLU` para evitar el colapso de unidades activas y asegurar una mejor capacidad de detección de patrones tanto en regiones positivas como negativas del espacio de entrada.

Por último se ha optadoo por el uso de **64 neuronas en las capas ocultas** tanto del generador como del discriminador ya que responde a un compromiso técnico entre capacidad representacional, estabilidad del entrenamiento y eficiencia computacional, especialmente en el contexto de modelos generativos aplicados a datos tabulares de baja dimensionalidad, como es el caso de las variables morfométricas (longitud, anchura, altura y peso) de juveniles de peces.

Desde un punto de vista práctico, 64 unidades por capa ofrecen una capacidad suficiente para capturar relaciones no lineales complejas entre las variables del espacio latente y las características morfológicas de salida, sin llegar a una sobreparametrización excesiva que pueda inducir sobreajuste o inestabilidad adversarial durante el entrenamiento de la GAN. Esta elección proporciona un número razonable de parámetros entrenables, lo cual resulta adecuado cuando se trabaja con conjuntos de datos de tamaño moderado, como ocurre en nuestro caso.

Además, estudios recientes sobre GANs para datos tabulares —como CTAB-GAN+ [[Zao et al., 2024](https://doi.org/10.3389/fdata.2023.1296508)] y Tabular GAN [[Liu et al., 2023](https://doi.org/10.1007/s00778-023-00807-y)]— concluyen que arquitecturas con capas ocultas de entre 64 y 128 neuronas suelen alcanzar un buen equilibrio entre precisión, velocidad de convergencia y estabilidad del discriminador. Por debajo de este umbral (p.e., 16 o 32 neuronas), se puede observar pérdida de capacidad expresiva, mientras que valores superiores (p.e., 256) pueden ser innecesarios para problemas con pocos atributos y generar ruido o fluctuaciones en el aprendizaje adversarial.