<a href="https://colab.research.google.com/github/davidlealo/sic_ai_2025_sept/blob/main/6_proyectos/clase_39.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Perfecto. Para crear una GAN que **genere caras u otros objetos**, la clave es elegir **datasets que sean fáciles de descargar y ya preparados para entrenamiento**.

A continuación te muestro las opciones más comunes y *recomendadas según dificultad*:

---

## **1) Dataset más simple para generar caras: CelebA (64×64)**

**CelebA** es el dataset estándar para GANs de rostros. Tiene **202.599 imágenes de rostros humanos** alineados y recortados.

### Cómo descargarlo automáticamente en Colab:

```python
!wget https://www.dropbox.com/s/8oqt594c1w506qb/img_align_celeba.zip
!unzip img_align_celeba.zip -d celeba
```

Esto descarga las imágenes en **64x64**, perfectas para GANs tipo **DCGAN**.

---

## **2) Dataset simple para objetos reales (ropa / productos): Fashion-MNIST**

Es igual que MNIST pero con formas de ropa. Es ideal **si quieres entrenar rápido** y ver resultados sin esperar mucho.

Se carga así:

```python
from tensorflow.keras.datasets import fashion_mnist
(train_images, _), (_, _) = fashion_mnist.load_data()
```

---

## **3) Dataset para objetos coloridos: CIFAR-10 (32×32 RGB)**

Incluye:

* Autos
* Aviones
* Gatos
* Perros
* Ranas
* etc.

Muy popular para entrenar GANs de objetos simples y coloridos.

Se carga así:

```python
from tensorflow.keras.datasets import cifar10
(train_images, _), (_, _) = cifar10.load_data()
```

---

## **Entonces: ¿Cuál usar según tu objetivo?**

| Objetivo                                   | Dataset recomendado | Dificultad | Resultado esperado                                   |
| ------------------------------------------ | ------------------- | ---------- | ---------------------------------------------------- |
| Rostros realistas                          | **CelebA**          | Media      | Caras bastante convincentes                          |
| Empezar simple con algo distinto a dígitos | Fashion-MNIST       | Muy fácil  | Se aprende rápido, resultados moderados              |
| Objetos coloridos                          | CIFAR-10            | Media-Alta | Buen entrenamiento, imágenes algo borrosas al inicio |
| Rostros hiperrealistas                     | FFHQ (1024×1024)    | Muy alta   | Se requiere GPU potente + StyleGAN                   |

---

## **¿Quieres que prepare tu GAN de caras lista para entrenar?**

Te puedo generar uno de estos modelos:

| Modelo                        | Descripción                               | Tiempo de entrenamiento en Colab |
| ----------------------------- | ----------------------------------------- | -------------------------------- |
| **DCGAN para CelebA (64×64)** | GAN clásica, resultados buenos            | 10–40 minutos                    |
| **WGAN-GP para CelebA**       | Mucho más estable                         | 45–120 minutos                   |
| **StyleGAN2**                 | Calidad altísima pero requiere GPU grande | 2–8 horas                        |

---

### Responde solo con un número:

**1)** Quiero **DCGAN** para rostros (rápida, ideal para aprender)
**2)** Quiero **WGAN-GP** para rostros (más estable, resultados mejores)
**3)** Quiero **GAN para CIFAR-10**
**4)** Quiero **GAN para Fashion-MNIST**
**5)** Quiero explicación visual de las diferencias
**6)** Quiero usar **otro tipo de imágenes** (indica cuál)

---

Escribe el número y listo.
Ejemplo:

```
1
```


In [16]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("jessicali9530/celeba-dataset")

print("Path to dataset files:", path)

Downloading from https://www.kaggle.com/api/v1/datasets/download/jessicali9530/celeba-dataset?dataset_version_number=2...


100%|██████████| 1.33G/1.33G [00:08<00:00, 170MB/s]

Extracting files...





Path to dataset files: /root/.cache/kagglehub/datasets/jessicali9530/celeba-dataset/versions/2


In [17]:
import os

base_dir = path  # Usaremos la ruta automática devuelta por kagglehub
print(os.listdir(base_dir))


['img_align_celeba', 'list_landmarks_align_celeba.csv', 'list_bbox_celeba.csv', 'list_eval_partition.csv', 'list_attr_celeba.csv']


In [18]:
IMAGE_DIR = f"{path}/img_align_celeba"


In [19]:
import glob

image_paths = glob.glob(IMAGE_DIR + "/*.jpg")
print("Total imágenes encontradas:", len(image_paths))


Total imágenes encontradas: 0


In [20]:
print(path)
!ls $path


/root/.cache/kagglehub/datasets/jessicali9530/celeba-dataset/versions/2
img_align_celeba      list_bbox_celeba.csv     list_landmarks_align_celeba.csv
list_attr_celeba.csv  list_eval_partition.csv


In [21]:
IMAGE_DIR = "/root/.cache/kagglehub/datasets/jessicali9530/celeba-dataset/versions/2/img_align_celeba"


In [22]:
import glob

image_paths = glob.glob(IMAGE_DIR + "/*.jpg")
print("Total imágenes encontradas:", len(image_paths))


Total imágenes encontradas: 0


In [23]:
import kagglehub

path = kagglehub.dataset_download("jessicali9530/celeba-64")
print("Dataset descargado en:", path)


KaggleApiHTTPError: 403 Client Error.

You don't have permission to access resource at URL: https://www.kaggle.com/datasets/jessicali9530/celeba-64. The server reported the following issues: Permission 'datasets.get' was denied
Please make sure you are authenticated if you are trying to access a private resource or a resource requiring consent.

In [3]:
!pip install kaggle
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json




In [4]:
!kaggle datasets download -d jessicali9530/celeba-64 -p /content
!unzip -q /content/celeba-64.zip -d /content/celeba_64


403 Client Error: Forbidden for url: https://www.kaggle.com/api/v1/datasets/metadata/jessicali9530/celeba-64
unzip:  cannot find or open /content/celeba-64.zip, /content/celeba-64.zip.zip or /content/celeba-64.zip.ZIP.


In [2]:
!pip install huggingface_hub
from huggingface_hub import login

login()




VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [4]:
from datasets import load_dataset

dataset = load_dataset("nielsr/CelebA-faces")


dataset_infos.json:   0%|          | 0.00/667 [00:00<?, ?B/s]

data/train-00000-of-00003.parquet:   0%|          | 0.00/462M [00:00<?, ?B/s]

data/train-00001-of-00003.parquet:   0%|          | 0.00/463M [00:00<?, ?B/s]

data/train-00002-of-00003.parquet:   0%|          | 0.00/463M [00:00<?, ?B/s]

Generating train split:   0%|          | 0/202599 [00:00<?, ? examples/s]

In [5]:
dataset["train"][0]


{'image': <PIL.JpegImagePlugin.JpegImageFile image mode=RGB size=178x218>}

In [7]:
import tensorflow as tf

def preprocess(example):
    img = example["image"].resize((64, 64))  # tamaño esperado por la GAN
    img = tf.cast(img, tf.float32)
    img = (img - 127.5) / 127.5  # normalizar a [-1, 1]
    return {"image": img}



In [9]:
train_images = dataset["train"].map(preprocess)


Map:   0%|          | 0/202599 [00:00<?, ? examples/s]

In [10]:
BATCH_SIZE = 128

train_ds = train_images.to_tf_dataset(
    columns=["image"],
    batch_size=BATCH_SIZE,
    shuffle=True
).prefetch(tf.data.AUTOTUNE)


Old behaviour: columns=['a'], labels=['labels'] -> (tf.Tensor, tf.Tensor)  
             : columns='a', labels='labels' -> (tf.Tensor, tf.Tensor)  
New behaviour: columns=['a'],labels=['labels'] -> ({'a': tf.Tensor}, {'labels': tf.Tensor})  
             : columns='a', labels='labels' -> (tf.Tensor, tf.Tensor) 
