# Ingestar un dataset o modelo existentes


En esta notebook, mostraremos cómo incorporar un conjunto de datos o modelo existente en EOTDL.

Una vez incorporado, puede usarlo de la misma manera que cualquier otro conjunto de datos o modelo en EOTDL (exploración, preparación, etc.).


## Ingestar a través de la CLI


La forma recomendada de ingerir un conjunto de datos es mediante la CLI.


In [1]:
!eotdl datasets ingest --help

[1m                                                                                [0m
[1m [0m[1;33mUsage: [0m[1meotdl datasets ingest [OPTIONS][0m[1m                                        [0m[1m [0m
[1m                                                                                [0m
 Ingest a dataset to the EOTDL.asdf                                             
                                                                                
 [2mThis command ingests the dataset to the EOTDL. The dataset must be a folder [0m   
 [2mwith the dataset files, and at least a README.md file (and a catalog.json file[0m 
 [2mfor Q1+). If these files are missing, the ingestion will not work. All the [0m    
 [2mfiles in the folder will be uploaded to the EOTDL.[0m                             
                                                                                
 [2mThe following constraints apply to the dataset name:[0m                           
 [2m- It 

Para ingerir un conjunto de datos, necesitará una carpeta en su sistema con los datos que desea cargar, como la que hemos generado.


In [2]:
!ls data/boadella-jsl2025

Boadella_2020-01-13.tif Boadella_2020-01-23.tif Boadella_2020-02-02.tif
Boadella_2020-01-18.tif Boadella_2020-01-28.tif


In [3]:
from glob import glob

files = glob("data/boadella-jsl2025/**/*.*", recursive=True)
files

['data/boadella-jsl2025/Boadella_2020-02-02.tif',
 'data/boadella-jsl2025/Boadella_2020-01-23.tif',
 'data/boadella-jsl2025/Boadella_2020-01-18.tif',
 'data/boadella-jsl2025/Boadella_2020-01-28.tif',
 'data/boadella-jsl2025/Boadella_2020-01-13.tif']

Se requiere un archivo `README.md` para los conjuntos de datos y modelos, que contiene cierta información básica requerida (autores del conjunto de datos, licencias, enlace a la fuente y nombre del conjunto de datos).


In [None]:
# !touch data/boadella-jsl2025/README.md   # Descomentar para crear el archivo README

In [6]:
!cat data/boadella-jsl2025/README.md

---
name: boadella-jsl2025
authors:
  - Fran Martin
license: MIT
source: https://www.eotdl.com
thumbnail: https://empordaturisme.com/wp-content/uploads/2021/06/Espais-Naturals-Panta-de-Boadella-empordaturisme.jpg
---

Dataset de Boadella del taller de SIG Libre de Girona 2025


El nombre elegido será el que aparecerá en el repositorio, por lo que debe ser único, tener entre 3 y 45 caracteres y solo puede contener caracteres alfanuméricos y guiones (más información en [https://www.eotdl.com/docs/datasets/ingest](https://www.eotdl.com/docs/datasets/ingest)).

Intentar ingerir un conjunto de datos sin un archivo `README.md` fallará.

Si todo es correcto, el proceso de ingestión debería funcionar.


In [9]:
!eotdl datasets ingest -p data/boadella-jsl2025/

Ingesting folder
Ingesting directory: data/boadella-jsl2025
Preparing files: 100%|███████████████████████████| 6/6 [00:00<00:00, 205.11it/s]
Ingesting files: 100%|████████████████████████████| 6/6 [00:04<00:00,  1.40it/s]


Y ahora su conjunto de datos está disponible en EOTDL


In [11]:
!eotdl datasets list -n boadella-jsl2025

['boadella-jsl2025']


Dado que el nombre `boadella-jsl2025` ya está en uso, este proceso debería fallar. Para solucionarlo, simplemente cargue el conjunto de datos con un nombre diferente. Sin embargo, esto contaminará el EOTDL con conjuntos de datos de prueba, por lo que le recomendamos que pruebe el proceso de ingesta con un conjunto de datos real que desee ingestar (o que sobrescriba su conjunto de datos de prueba en el futuro con datos útiles). En cualquier caso, siempre puede eliminar el conjunto de datos del EOTDL usando el botón `DELETE` en la interfaz de usuario.


Durante el proceso de ingesta, se crea un archivo `catalog.parquet` con metadatos de STAC. Si su conjunto de datos ya contiene metadatos de STAC (existe un archivo `catalog.json` en la raíz del conjunto de datos), estos se analizarán y se añadirán al archivo `catalog.parquet`. De lo contrario, la CLI creará metadatos compatibles con STAC a partir de la estructura de directorios.


In [12]:
import geopandas as gpd

catalog = gpd.read_parquet("data/boadella-jsl2025/catalog.parquet")

catalog

Unnamed: 0,type,stac_version,stac_extensions,datetime,id,bbox,geometry,assets,links,repository
0,Feature,1.0.0,[],2025-09-15 12:10:00.043076,Boadella_2020-02-02.tif,"{'xmax': 0.0, 'xmin': 0.0, 'ymax': 0.0, 'ymin'...",POLYGON EMPTY,{'asset': {'checksum': '2f1df20189d865fb078dbe...,[],eotdl
1,Feature,1.0.0,[],2025-09-15 12:10:00.049999,Boadella_2020-01-23.tif,"{'xmax': 0.0, 'xmin': 0.0, 'ymax': 0.0, 'ymin'...",POLYGON EMPTY,{'asset': {'checksum': 'e1919f8306baf94cf73f95...,[],eotdl
2,Feature,1.0.0,[],2025-09-15 12:10:00.054921,Boadella_2020-01-18.tif,"{'xmax': 0.0, 'xmin': 0.0, 'ymax': 0.0, 'ymin'...",POLYGON EMPTY,{'asset': {'checksum': 'bbbc2db4292883aa927ac5...,[],eotdl
3,Feature,1.0.0,[],2025-09-15 12:10:00.059546,README.md,"{'xmax': 0.0, 'xmin': 0.0, 'ymax': 0.0, 'ymin'...",POLYGON EMPTY,{'asset': {'checksum': '1a9075ed728747b8f385f6...,[],eotdl
4,Feature,1.0.0,[],2025-09-15 12:10:00.059687,Boadella_2020-01-28.tif,"{'xmax': 0.0, 'xmin': 0.0, 'ymax': 0.0, 'ymin'...",POLYGON EMPTY,{'asset': {'checksum': '88705d8f3e5f3268693ff3...,[],eotdl
5,Feature,1.0.0,[],2025-09-15 12:10:00.066379,Boadella_2020-01-13.tif,"{'xmax': 0.0, 'xmin': 0.0, 'ymax': 0.0, 'ymin'...",POLYGON EMPTY,{'asset': {'checksum': '160756f336142ee1afcbb1...,[],eotdl


¡Sería el mismo funcionamiento para modelos!


## Versionado


De forma predeterminada, cada vez que se vuelve a cargar un conjunto de datos o un modelo, se crea una nueva versión. Aplicamos el control de versiones a nivel de conjunto de datos/modelo y de archivo, lo que significa que solo se cargarán los archivos nuevos o modificados en futuras cargas, descargando los archivos correspondientes para cada versión.


In [13]:
!echo "hello" > data/boadella-jsl2025/hello.txt
!eotdl datasets ingest -p data/boadella-jsl2025/

Ingesting folder
Ingesting directory: data/boadella-jsl2025
Preparing files: 100%|███████████████████████████| 7/7 [00:00<00:00, 149.27it/s]
Ingesting files: 100%|████████████████████████████| 7/7 [00:01<00:00,  3.92it/s]
A new version was created, your dataset has changed.
Num changes: 1


Al preparar un conjunto de datos, se utiliza la última versión de forma predeterminada.


In [14]:
!eotdl datasets get boadella-jsl2025

Data available at /Users/fran/.cache/eotdl/datasets/boadella-jsl2025


Sin embargo, puede especificar la versión


In [15]:
!eotdl datasets get boadella-jsl2025 -v 1 -f

Data available at /Users/fran/.cache/eotdl/datasets/boadella-jsl2025


In [16]:
!ls $HOME/.cache/eotdl/datasets/boadella-jsl2025

README.md          catalog.v1.parquet catalog.v2.parquet


Puede explorar las diferentes versiones en la interfaz de usuario.


## Ingesta a través de la librería de Python


Puede ingerir conjuntos de datos y modelos utilizando la librería


In [17]:
from eotdl.datasets import ingest_dataset

try:
    ingest_dataset("data/boadella-jsl2025")
except Exception as e:
    print(e)

Ingesting folder
Ingesting directory: data/boadella-jsl2025


Preparing files: 100%|██████████| 7/7 [00:00<00:00, 288.83it/s]
Ingesting files: 100%|██████████| 7/7 [00:01<00:00,  4.89it/s]

No new version was created, your dataset has not changed.





## Oportunidades de discusión y contribución


No dudes en hacer preguntas ahora (en vivo o a través de Discord) y sugerir mejoras futuras.

- ¿Qué funciones de ingesta te gustaría ver?
- ¿Qué otras funciones de control de versiones te gustaría ver?
