# Creaci√≥n de subconjuntos
Descargamos el [conjunto de datos](https://isic-archive.s3.amazonaws.com/challenges/2019/ISIC_2019_Training_Input.zip) de entrenamiento ISIC 2019 y sus [etiquetas](https://isic-archive.s3.amazonaws.com/challenges/2019/ISIC_2019_Training_Metadata.csv). Cabe recalcar que no vamos a descargar los conjuntos de prueba que ya proporciona ISIC, si no que en su lugar vamos a crear subconjuntos a partir del conjunto de datos original.

In [None]:
import os
import zipfile
from pathlib import Path
import requests

zip_url = "https://isic-archive.s3.amazonaws.com/challenges/2019/ISIC_2019_Training_Input.zip"
csv_url = "https://isic-archive.s3.amazonaws.com/challenges/2019/ISIC_2019_Training_Metadata.csv"

dest_dir = Path("conjunto_de_datos")
dest_dir.mkdir(parents=True, exist_ok=True)
zip_path = dest_dir / "ISIC_2019_Training_Input.zip"
csv_path = dest_dir / "ISIC_2019_Training_Metadata.csv"

# Descarga en streaming para no agotar memoria
chunk_size = 1024 * 1024  # 1 MB
with requests.get(zip_url, stream=True, timeout=120) as r:
    r.raise_for_status()
    with open(zip_path, "wb") as f:
        for chunk in r.iter_content(chunk_size=chunk_size):
            if chunk:
                f.write(chunk)

# Extrae y elimina el zip para ahorrar espacio
authoring_dir = zip_path.parent
with zipfile.ZipFile(zip_path) as z:
    z.extractall(authoring_dir)
zip_path.unlink(missing_ok=True)

# Descarga el CSV de etiquetas
with requests.get(csv_url, timeout=60) as r:
    r.raise_for_status()
    csv_path.write_bytes(r.content)