# Redes Generativas Adversariales (GAN)

Las **Redes Generativas Adversariales (GAN)** son un tipo de modelo de aprendizaje profundo que consiste en dos redes neuronales, un generador y un discriminador, que son entrenadas simultáneamente a través de un proceso adversarial. Fueron propuestas por Ian Goodfellow y sus colegas en 2014.

## Estructura Básica

1. **Generador:** Crea datos sintéticos, como imágenes, a partir de un conjunto de datos de entrada. El objetivo es que las muestras generadas por el generador sean indistinguibles de las muestras reales.

2. **Discriminador:** Evalúa si una muestra es real (proveniente del conjunto de datos de entrenamiento) o falsa (generada por el generador). Su objetivo es mejorar su capacidad para distinguir entre muestras reales y generadas.

## Proceso de Entrenamiento

El entrenamiento de una GAN implica un juego de adversarios entre el generador y el discriminador:

1. **Fase de Generación:**
   - El generador crea muestras sintéticas.

2. **Fase de Discriminación:**
   - El discriminador también evalúa muestras reales y emite una probabilidad de autenticidad.
   - Se calcula la pérdida (diferencia entre las predicciones y las etiquetas reales) para ambas muestras reales y generadas.

3. **Optimización Conjunta:**
   - Se optimiza el generador para engañar al discriminador, minimizando la pérdida adversarial.
   - Se optimiza el discriminador para mejorar su capacidad de distinguir entre real y sintético, minimizando su pérdida.

Este proceso se repite iterativamente hasta que el generador produce muestras casi indistinguibles de las reales y el discriminador no puede diferenciar entre las dos con certeza.




## Estructura

La estructura de una Red Generativa Adversarial (GAN) se compone de dos redes principales: el generador y el discriminador. Ambas redes están entrenadas de manera adversarial, es decir, una red intenta mejorar continuamente mientras la otra intenta detectar las muestras generadas.

### Generador

El generador tiene la tarea de crear datos sintéticos que sean indistinguibles de los datos reales. Tiene una arquitectura de red que transforma un vector de entrada (a menudo llamado de un espacio latente) en una muestra artificial. Este vector de entrada puede ser un vector aleatorio (ruido) para poder producir una serie elmentos distintos.

### Discriminador

El discriminador evalúa si una muestra dada es real o generada por el generador. Tiene la tarea de mejorar su capacidad para hacer esta distinción a medida que avanza el entrenamiento.


![](https://www.jisc.ac.uk/sites/default/files/gans-diagram.jpg)

## Proceso de Entrenamiento

1. **Fase de Generación:**
   - El generador toma muestras del espacio latente y produce datos sintéticos.
   - Estos datos sintéticos se envían al discriminador.

2. **Fase de Discriminación:**
   - El discriminador evalúa las muestras reales y generadas, emitiendo probabilidades de autenticidad.
   - Se calcula la pérdida adversarial basada en cuán bien el discriminador puede distinguir entre las muestras reales y generadas.

3. **Optimización Conjunta:**
   - Se optimiza el generador para engañar al discriminador, minimizando la pérdida adversarial.
   - Se optimiza el discriminador para mejorar su capacidad de distinguir entre datos reales y generados, minimizando su pérdida.

Este proceso se repite iterativamente hasta que el nivel de calidad de elementos creados por el generador sea aceptab

### Retroalimentación Adversarial

La clave de una GAN es la competencia entre el generador y el discriminador. A medida que el generador mejora, el discriminador también debe mejorar para mantener la distinción entre datos reales y generados. Esta retroalimentación adversarial es fundamental para el éxito de la GAN.


# Distintas arquitecturas de GANs

A lo largo del tiempo, varias arquitecturas de GANs han sido propuestas para abordar diferentes problemas y mejorar la estabilidad del entrenamiento. Algunas de las arquitecturas más conocidas son:

1. **DCGAN (Deep Convolutional GAN):**
   - Introduce capas de convolución en el generador y el discriminador, mejorando la capacidad de trabajar con datos de imagen. DCGAN ha sido ampliamente utilizado para la generación de imágenes realistas.

2. **WGAN (Wasserstein GAN):**
   - Propone una modificación en la función de pérdida para mejorar la estabilidad del entrenamiento, utilizando la distancia de Wasserstein. WGAN aborda problemas como el colapso del modo y proporciona una métrica más significativa de la calidad de las muestras generadas.

3. **CGAN (Conditional GAN):**
   - Extiende la GAN básica permitiendo la generación condicional, es decir, especificar una clase o características específicas que se desean en la muestra generada. Es útil para tareas de generación condicional donde se quiere controlar la salida.

4. **CycleGAN:**
   - Diseñado para problemas de traducción de estilo, como la conversión de imágenes de un dominio a otro sin necesidad de pares de entrenamiento específicos. CycleGAN utiliza la consistencia cíclica para mejorar la calidad de la traducción.

5. **PGGAN (Progressive GAN):**
   - Propone una arquitectura progresiva que comienza con imágenes de baja resolución y las va incrementando gradualmente. PGGAN ha demostrado ser eficaz para generar imágenes de alta resolución.

6. **StyleGAN y StyleGAN2:**
   - Introducen conceptos de estilo y control más fino en la generación de imágenes. StyleGAN permite la manipulación del estilo de las muestras generadas, mientras que StyleGAN2 mejora la calidad visual y la estabilidad del entrenamiento.

7. **BigGAN:**
   - Diseñado para manejar grandes conjuntos de datos y escalarse eficientemente. BigGAN ha demostrado ser eficaz en la generación de imágenes de alta calidad y resolución.

8. **SN-GAN (Spectral Normalization GAN):**
   - Utiliza la normalización espectral para estabilizar el entrenamiento, mejorando la capacidad del discriminador para manejar múltiples modos en el espacio de datos.

9. **SAGAN (Self-Attention GAN):**
   - Incorpora mecanismos de autoatención para permitir que la red se enfoque en diferentes regiones de la imagen durante la generación, mejorando la calidad de las muestras.

Estas son solo algunas de las arquitecturas más conocidas de GANs, y la investigación en este campo sigue evolucionando, dando lugar a nuevas propuestas y mejoras constantes.

# Problemáticas con GANs


Aunque las Redes Generativas Adversariales (GAN) han demostrado ser poderosas en diversas aplicaciones, también presentan desafíos y problemáticas que deben abordarse:

- **Inestabilidad en el Entrenamiento:** El entrenamiento de GANs puede ser inestable y desafiante. A veces, el discriminador se vuelve demasiado dominante, afectando la convergencia.

- **Modos Colapsados:** Las GANs pueden sufrir de modos colapsados, donde el generador solo produce un conjunto limitado de muestras, ignorando la diversidad en los datos de entrenamiento.

- **Evaluación de Calidad:** Evaluar la calidad de las muestras generadas por GANs no es trivial. Las métricas objetivas pueden no capturar completamente la percepción humana de la calidad visual, lo que hace que la evaluación sea subjetiva.

- **Sensibilidad a Hiperparámetros:** GANs son sensibles a la selección de hiperparámetros, como tasas de aprendizaje, arquitecturas de red y dimensiones del espacio latente. Encontrar la combinación óptima puede requerir ajuste y experimentación.

- **Generación de Datos No Deseados:** En algunos casos, los modelos GAN pueden generar datos que son biológicamente poco realistas o no deseados.

- **Interpretabilidad y Control:** Entender y controlar lo que aprenden las GANs puede ser desafiante. La falta de interpretabilidad puede ser un obstáculo en aplicaciones críticas, donde se necesita explicar el razonamiento detrás de las decisiones del modelo.

- **Requerimientos Computacionales:** El entrenamiento de GANs a menudo requiere grandes cantidades de recursos computacionales, tiempo y potencia de cálculo, especialmente para arquitecturas más grandes y conjuntos de datos masivos.

- **Ética y Uso Malintencionado:** La capacidad de GANs para generar contenido falso y realista plantea preocupaciones éticas, como la creación de deepfakes, que pueden ser utilizados con intenciones maliciosas.


In [1]:
from tensorflow import keras
from tensorflow.keras import layers

import tensorflow as tf
import numpy as np
import matplotlib.pyplot as plt

2023-11-25 10:13:35.200673: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-11-25 10:13:35.941597: E tensorflow/compiler/xla/stream_executor/cuda/cuda_dnn.cc:9342] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2023-11-25 10:13:35.941654: E tensorflow/compiler/xla/stream_executor/cuda/cuda_fft.cc:609] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2023-11-25 10:13:35.945947: E tensorflow/compiler/xla/stream_executor/cuda/cuda_blas.cc:1518] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2023-11-25 10:13:36.323916: I tensorflow/tsl/cuda/cudart_stub.cc:28] Could not find cuda drivers on your machine, GPU will not be used.
2023-11-25 10:13:36.327599: I tensorflow/core/platform/cpu_feature_guard.cc:182] This Tens

In [2]:
batch_size = 64
num_channels = 1  #monocromática por ello solo 1
num_classes = 10  # 10 digitos
image_size = 28
latent_dim = 128  # ruido

In [3]:
# We'll use all the available examples from both the training and test
# sets.
(x_train, y_train), (x_test, y_test) = keras.datasets.mnist.load_data()
all_digits = np.concatenate([x_train, x_test])
all_labels = np.concatenate([y_train, y_test])

# Scale the pixel values to [0, 1] range, add a channel dimension to
# the images, and one-hot encode the labels.
all_digits = all_digits.astype("float32") / 255.0
all_digits = np.reshape(all_digits, (-1, 28, 28, 1))
all_labels = keras.utils.to_categorical(all_labels, 10)

# Create tf.data.Dataset.
dataset = tf.data.Dataset.from_tensor_slices((all_digits, all_labels))   # ayuda a consumir más eficientemente
dataset = dataset.shuffle(buffer_size=1024).batch(batch_size)        #mezclar para que haya de todos los números

print(f"Shape of training images: {all_digits.shape}")
print(f"Shape of training labels: {all_labels.shape}")

Shape of training images: (70000, 28, 28, 1)
Shape of training labels: (70000, 10)


In [4]:
# CONDITIONAL GAN vamos a poder decidir que número generar
generator_in_channels = latent_dim + num_classes   # ruido más clase
discriminator_in_channels = num_channels + num_classes
print(generator_in_channels, discriminator_in_channels)


138 11


In [5]:
# Create the discriminator.
discriminator = keras.Sequential(
    [
        keras.layers.InputLayer((28, 28, discriminator_in_channels)),
        layers.Conv2D(64, (3, 3), strides=(2, 2), padding="same"),
        layers.LeakyReLU(alpha=0.2),
        layers.Conv2D(128, (3, 3), strides=(2, 2), padding="same"),
        layers.LeakyReLU(alpha=0.2),
        layers.GlobalMaxPooling2D(),
        layers.Dense(1),
    ],
    name="discriminator",
)

# Create the generator.
generator = keras.Sequential(
    [
        keras.layers.InputLayer((generator_in_channels,)),
        # We want to generate 128 + num_classes coefficients to reshape into a
        # 7x7x(128 + num_classes) map.
        layers.Dense(7 * 7 * generator_in_channels),
        layers.LeakyReLU(alpha=0.2),
        layers.Reshape((7, 7, generator_in_channels)),
        layers.Conv2DTranspose(128, (4, 4), strides=(2, 2), padding="same"),  #transpuestas == capa de deconvolución
        layers.LeakyReLU(alpha=0.2),
        layers.Conv2DTranspose(128, (4, 4), strides=(2, 2), padding="same"),
        layers.LeakyReLU(alpha=0.2),
        layers.Conv2D(1, (7, 7), padding="same", activation="sigmoid"),
    ],
    name="generator",
)

In [6]:
class ConditionalGAN(keras.Model):
    def __init__(self, discriminator, generator, latent_dim):
        super().__init__()
        self.discriminator = discriminator
        self.generator = generator
        self.latent_dim = latent_dim
        self.gen_loss_tracker = keras.metrics.Mean(name="generator_loss")  #seguimiento de perdido de generador
        self.disc_loss_tracker = keras.metrics.Mean(name="discriminator_loss")   #

    @property
    def metrics(self):
        return [self.gen_loss_tracker, self.disc_loss_tracker]

    def compile(self, d_optimizer, g_optimizer, loss_fn):
        super().compile()
        self.d_optimizer = d_optimizer
        self.g_optimizer = g_optimizer
        self.loss_fn = loss_fn

    def train_step(self, data):
        # Unpack the data.
        real_images, one_hot_labels = data

        # Add dummy dimensions to the labels so that they can be concatenated with
        # the images. This is for the discriminator.
        image_one_hot_labels = one_hot_labels[:, :, None, None]
        image_one_hot_labels = tf.repeat(
            image_one_hot_labels, repeats=[image_size * image_size]
        )
        image_one_hot_labels = tf.reshape(
            image_one_hot_labels, (-1, image_size, image_size, num_classes)    #analizar vs reshape de arriba
        )

        # Sample random points in the latent space and concatenate the labels.
        # This is for the generator.
        batch_size = tf.shape(real_images)[0]
        random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
        random_vector_labels = tf.concat(
            [random_latent_vectors, one_hot_labels], axis=1     #unimos ruido con imagenes reales
        )

        # Decode the noise (guided by labels) to fake images.
        generated_images = self.generator(random_vector_labels)

        # Combine them with real images. Note that we are concatenating the labels
        # with these images here.
        fake_image_and_labels = tf.concat([generated_images, image_one_hot_labels], -1)
        real_image_and_labels = tf.concat([real_images, image_one_hot_labels], -1)
        combined_images = tf.concat(
            [fake_image_and_labels, real_image_and_labels], axis=0
        )

        # Assemble labels discriminating real from fake images.
        labels = tf.concat(
            [tf.ones((batch_size, 1)), tf.zeros((batch_size, 1))], axis=0
        )


        #uno es falso cero es real
        # Train the discriminator.
        with tf.GradientTape() as tape:
            predictions = self.discriminator(combined_images)
            d_loss = self.loss_fn(labels, predictions)
        grads = tape.gradient(d_loss, self.discriminator.trainable_weights)
        #aplicar gradientes una vez a los pesos que se pueden actualizar
        self.d_optimizer.apply_gradients(
            zip(grads, self.discriminator.trainable_weights)
        )

        ### Concluye entrenamiento de discriminador
        # Sample random points in the latent space.
        random_latent_vectors = tf.random.normal(shape=(batch_size, self.latent_dim))
        random_vector_labels = tf.concat(
            [random_latent_vectors, one_hot_labels], axis=1
        )

        ## vamos a decir que todos son reales  (que te faltó para que el discriminador te hubiera creído todo)
        # Assemble labels that say "all real images".
        misleading_labels = tf.zeros((batch_size, 1))

        # Train the generator (note that we should *not* update the weights
        # of the discriminator)!
        with tf.GradientTape() as tape:
            fake_images = self.generator(random_vector_labels)
            fake_image_and_labels = tf.concat([fake_images, image_one_hot_labels], -1)
            predictions = self.discriminator(fake_image_and_labels)
            g_loss = self.loss_fn(misleading_labels, predictions)
        grads = tape.gradient(g_loss, self.generator.trainable_weights)
        self.g_optimizer.apply_gradients(zip(grads, self.generator.trainable_weights))

        # Monitor loss.
        self.gen_loss_tracker.update_state(g_loss)
        self.disc_loss_tracker.update_state(d_loss)
        return {
            "g_loss": self.gen_loss_tracker.result(),
            "d_loss": self.disc_loss_tracker.result(),
        }

In [None]:
cond_gan = ConditionalGAN(
    discriminator=discriminator, generator=generator, latent_dim=latent_dim
)
cond_gan.compile(
    d_optimizer=keras.optimizers.Adam(learning_rate=0.0003),
    g_optimizer=keras.optimizers.Adam(learning_rate=0.0003),
    loss_fn=keras.losses.BinaryCrossentropy(from_logits=True),   #o es real o es falso
)

cond_gan.fit(dataset, epochs=20)

Epoch 1/20
Epoch 2/20
Epoch 3/20
Epoch 4/20
Epoch 5/20
 225/1094 [=====>........................] - ETA: 15:04 - g_loss: 0.9728 - d_loss: 0.6054

In [None]:
# We first extract the trained generator from our Conditional GAN.
trained_gen = cond_gan.generator

# Choose the number of intermediate images that would be generated in
# between the interpolation + 2 (start and last images).
num_interpolation = 9  # @param {type:"integer"}

# Sample noise for the interpolation.
interpolation_noise = tf.random.normal(shape=(1, latent_dim))
interpolation_noise = tf.repeat(interpolation_noise, repeats=num_interpolation)
interpolation_noise = tf.reshape(interpolation_noise, (num_interpolation, latent_dim))


def interpolate_class(first_number, second_number):
    # Convert the start and end labels to one-hot encoded vectors.
    first_label = keras.utils.to_categorical([first_number], num_classes)
    second_label = keras.utils.to_categorical([second_number], num_classes)
    first_label = tf.cast(first_label, tf.float32)
    second_label = tf.cast(second_label, tf.float32)

    # Calculate the interpolation vector between the two labels.
    percent_second_label = tf.linspace(0, 1, num_interpolation)[:, None]
    percent_second_label = tf.cast(percent_second_label, tf.float32)
    interpolation_labels = (
        first_label * (1 - percent_second_label) + second_label * percent_second_label
    )

    # Combine the noise and the labels and run inference with the generator.
    noise_and_labels = tf.concat([interpolation_noise, interpolation_labels], 1)
    fake = trained_gen.predict(noise_and_labels)
    return fake


start_class = 1  # @param {type:"slider", min:0, max:9, step:1}
end_class = 5  # @param {type:"slider", min:0, max:9, step:1}

fake_images = interpolate_class(start_class, end_class)

In [None]:
plt.figure()
for i in range(fake_images.shape[0]):
    plt.subplot(3, 3, i+1)
    plt.imshow(fake_images[i], interpolation='nearest', cmap='gray_r')
    plt.axis('off')
plt.show()
