# Ingestar un dataset o modelo existentes


En esta notebook, mostraremos cómo incorporar un conjunto de datos o modelo existente en EOTDL.

Una vez incorporado, puede usarlo de la misma manera que cualquier otro conjunto de datos o modelo en EOTDL (exploración, preparación, etc.).


## Ingestar a través de la CLI


La forma recomendada de ingerir un conjunto de datos es mediante la CLI.


In [None]:
!eotdl datasets ingest --help

Para ingerir un conjunto de datos, necesitará una carpeta en su sistema con los datos que desea cargar.


In [None]:
!ls workshop_data

Para este tutorial, trabajaremos con una submuestra del conjunto de datos [EuroSAT](https://www.eotdl.com/datasets/EuroSAT-RGB).


In [None]:
from glob import glob

files = glob("workshop_data/EuroSAT-small/**/*.*", recursive=True)
files

Se requiere un archivo `README.md` para los conjuntos de datos y modelos, que contiene cierta información básica requerida (autores del conjunto de datos, licencias, enlace a la fuente y nombre del conjunto de datos).


In [None]:
!cat workshop_data/EuroSAT-small/README.md

El nombre elegido será el que aparecerá en el repositorio, por lo que debe ser único, tener entre 3 y 45 caracteres y solo puede contener caracteres alfanuméricos y guiones (más información en [https://www.eotdl.com/docs/datasets/ingest](https://www.eotdl.com/docs/datasets/ingest)).

Intentar ingerir un conjunto de datos sin un archivo `README.md` fallará.

Si todo es correcto, el proceso de ingestión debería funcionar.


In [None]:
!eotdl datasets ingest -p workshop_data/EuroSAT-small/

Y ahora su conjunto de datos está disponible en EOTDL


In [None]:
!eotdl datasets list -n Eurosat-small-jsl2025

Dado que el nombre `EuroSAT-small-jsl25` ya está en uso, este proceso debería fallar. Para solucionarlo, simplemente cargue el conjunto de datos con un nombre diferente. Sin embargo, esto contaminará el EOTDL con conjuntos de datos de prueba, por lo que le recomendamos que pruebe el proceso de ingesta con un conjunto de datos real que desee ingestar (o que sobrescriba su conjunto de datos de prueba en el futuro con datos útiles). En cualquier caso, siempre puede eliminar el conjunto de datos del EOTDL usando el botón `DELETE` en la interfaz de usuario.


Durante el proceso de ingesta, se crea un archivo `catalog.parquet` con metadatos de STAC. Si su conjunto de datos ya contiene metadatos de STAC (existe un archivo `catalog.json` en la raíz del conjunto de datos), estos se analizarán y se añadirán al archivo `catalog.parquet`. De lo contrario, la CLI creará metadatos compatibles con STAC a partir de la estructura de directorios.


In [None]:
import geopandas as gpd

catalog = gpd.read_parquet("workshop_data/EuroSAT-small/catalog.parquet")

catalog

¡Sería el mismo funcionamiento para modelos!


## Versionado


De forma predeterminada, cada vez que se vuelve a cargar un conjunto de datos o un modelo, se crea una nueva versión. Aplicamos el control de versiones a nivel de conjunto de datos/modelo y de archivo, lo que significa que solo se cargarán los archivos nuevos o modificados en futuras cargas, descargando los archivos correspondientes para cada versión.


In [None]:
!echo "hello" > workshop_data/EuroSAT-small/hello.txt
!eotdl datasets ingest -p workshop_data/EuroSAT-small/

Al preparar un conjunto de datos, se utiliza la última versión de forma predeterminada.


In [None]:
!eotdl datasets get EuroSAT-small-jsl2025

Sin embargo, puede especificar la versión


In [None]:
!eotdl datasets get EuroSAT-small-jsl2025 -v 1 -f

In [None]:
!ls $HOME/.cache/eotdl/datasets/EuroSAT-small-jsl2025

Puede explorar las diferentes versiones en la interfaz de usuario.


## Ingesta a través de la librería de Python


Puede ingerir conjuntos de datos y modelos utilizando la librería


In [None]:
from eotdl.datasets import ingest_dataset

try:
    ingest_dataset("workshop_data/EuroSAT-small")
except Exception as e:
    print(e)

## Oportunidades de discusión y contribución


No dudes en hacer preguntas ahora (en vivo o a través de Discord) y sugerir mejoras futuras.

- ¿Qué funciones de ingesta te gustaría ver?
- ¿Qué otras funciones de control de versiones te gustaría ver?
