```{image} ../images/ARCO.jpeg
:width: 600px
:align: center
```

# Introducci√≥n a ARCO: Datos Listos para An√°lisis

---

## üìö Descripci√≥n general

En este cuadernillo aprender√°s sobre **ARCO** (Analysis-Ready Cloud-Optimized), un paradigma moderno para almacenar y acceder datos cient√≠ficos:

1. **Datos listos para an√°lisis** - Por qu√© importa tener datos preprocesados
2. **Formatos optimizados para la nube** - Acceso eficiente a grandes vol√∫menes
3. **Principios FAIR** - Datos cient√≠ficos reutilizables y citables
4. **Panorama de formatos ARCO** - Zarr, Parquet, y otros

Este cuadernillo es conceptual. En el siguiente (1.8) aprender√°s Zarr en detalle con ejemplos pr√°cticos.

## ‚úÖ Requisitos previos

| Concepto                                | Importancia | Notas                                   |
|-----------------------------------------|-------------|------------------------------------------|
| [NumPy](./1.2.Introduccion-Numpy.ipynb) | Necesario   | Arrays multidimensionales     |
| [Xarray](./1.4.Introduccion-Xarray.ipynb) | Necesario | Datos etiquetados |
| [NetCDF/GRIB](./1.6.Exploracion-NetCDF-GRIB.ipynb) | √ötil | Formatos tradicionales |

‚è±Ô∏è **Tiempo estimado de aprendizaje**:
- üìñ Lectura: 20‚Äì25 minutos

‚úçÔ∏è **Formato**: conceptual

## 1. Datos Listos para An√°lisis (Analysis-Ready Data)

---

### ¬øQu√© significa "Listo para An√°lisis"?

Los datos **listos para an√°lisis** son conjuntos de datos que han sido preparados y estructurados para ser utilizables inmediatamente en an√°lisis cient√≠fico. Estudios demuestran que los cient√≠ficos de datos t√≠picamente dedican ~**80% de su tiempo** preparando y limpiando datos en lugar de hacer an√°lisis real.

```{figure} ../images/AR.jpeg
:width: 400px
:align: center
:name: fig-AR

Cortes√≠a: [Crowdflower data science report, 2016](https://www2.cs.uh.edu/~ceick/UDM/CFDS16.pdf)
```

Los datos listos para an√°lisis resuelven esto proporcionando:

‚úÖ **Datos limpios y preprocesados** - Listos para usar sin necesidad de limpieza adicional  
‚úÖ **Metadatos ricos** - Documentaci√≥n clara sobre qu√© contienen los datos  
‚úÖ **Formatos estandarizados** - Compatibles con herramientas de an√°lisis modernas  
‚úÖ **Control de calidad** - Garant√≠a de confiabilidad de los datos

**¬°Esto significa m√°s tiempo para ciencia y hacer descubrimientos!** üöÄ

### Beneficios clave de los datos listos para an√°lisis

| Aspecto | Datos tradicionales | Datos listos para an√°lisis |
|---------|---------------------|----------------------------|
| **Organizaci√≥n** | Archivos dispersos | Conjuntos de datos estructurados |
| **Limpieza** | Requiere horas de preprocesamiento | Pre-procesados y limpios |
| **Metadatos** | Escasos o ausentes | Ricos e incluidos |
| **Descubrimiento** | Dif√≠cil de encontrar | Catalogados y encontrables |
| **Uso inmediato** | No | S√≠ - an√°lisis inmediato |
| **Tiempo para ciencia** | 20% | 80% |

````{admonition} ü§î Pregunta r√°pida
:class: tip, dropdown

Si pasas 8 horas analizando datos, ¬øcu√°nto tiempo dedicas t√≠picamente a limpieza seg√∫n estudios?

**Respuesta:** ~6.4 horas (80% del tiempo). ¬°Por eso los datos listos para an√°lisis son tan valiosos!
````

## 2. Formatos Optimizados para la Nube (Cloud-Optimized)

---

Los formatos tradicionales de datos radar (como archivos NetCDF individuales) funcionan bien en computadoras locales pero son **lentos e ineficientes en entornos en la nube**. Los formatos **optimizados para la nube** como Zarr est√°n dise√±ados espec√≠ficamente para acceso r√°pido y eficiente desde almacenamiento en nube.

```{figure} ../images/cloud-move.png
:width: 900px
:align: center
:name: fig-cloude-move

Cortes√≠a: [Closed Platforms vs. Open Architectures for Cloud-Native Earth System Analytics](https://medium.com/pangeo/closed-platforms-vs-open-architectures-for-cloud-native-earth-system-analytics-1ad88708ebb6)
```

### ¬øPor qu√© importa la optimizaci√≥n para nube?

üöÄ **Acceso paralelo** - M√∫ltiples usuarios pueden leer diferentes partes simult√°neamente  
üì¶ **Almacenamiento fragmentado** - Solo descarga los datos que necesitas  
‚ö° **Transmisi√≥n r√°pida** - No necesitas descargar archivos completos  
üìà **Procesamiento escalable** - Maneja conjuntos de datos demasiado grandes para computadoras locales

### Comparaci√≥n: Almacenamiento Monol√≠tico vs Fragmentado

```{figure} ../images/monolithic-vs-chunked-1200dpi.png
:width: 500px
:align: center
:name: fig-mon-frag

Datos Monol√≠ticos Vs Fragmentados. *Imagen cortes√≠a: [Zarr illustrations](https://github.com/zarr-developers/zarr-illustrations-falk-2022)*

```

**Almacenamiento Monol√≠tico (NetCDF tradicional)**:
- Un solo archivo grande
- Debes descargar todo el archivo para acceder a cualquier parte
- Lento para acceso remoto

**Almacenamiento Fragmentado (Zarr)**:
- Datos divididos en fragmentos peque√±os (chunks)
- Acceso selectivo - solo descargas lo que necesitas
- R√°pido para acceso remoto y paralelo

## 3. Principios FAIR

---

Los datos **FAIR** siguen principios que hacen que los datos cient√≠ficos sean m√°s valiosos y reutilizables:

```{image} ../images/fair-data-principles.jpg
:width: 600px
:align: center
```

- **F**indable (Encontrable) - F√°cil de descubrir mediante cat√°logos y b√∫squedas
- **A**ccessible (Accesible) - Disponible a trav√©s de protocolos est√°ndar
- **I**nteroperable (Interoperable) - Funciona con diferentes herramientas y sistemas
- **R**eusable (Reutilizable) - Bien documentado para uso futuro por otros

### Beneficios de los datos FAIR

```{figure} ../images/fair-reuse-300dpi.png
:width: 600px
:align: center
:name: fig-fair-reuse

Ciclo de reuso y colaboraci√≥n de datos FAIR. *Imagen cortes√≠a: [Zarr illustrations](https://github.com/zarr-developers/zarr-illustrations-falk-2022)*
```

Los datos FAIR benefician a todos:

üë©‚Äçüî¨ **Productores de datos** - Reciben citaciones cuando otros usan sus conjuntos de datos  
üë®‚Äçüíª **Consumidores de datos** - Acceden a datos interesantes que de otro modo no estar√≠an disponibles  
üåç **La ciencia avanza** - Mediante colaboraci√≥n y el reuso de los datos

---

## Formatos ARCO m√°s comunes

Existen varios formatos dise√±ados para ser Analysis-Ready y Cloud-Optimized:

### Zarr
- **Uso**: Arrays N-dimensionales (datos clim√°ticos, radar, sat√©lite)
- **Ventajas**: Fragmentaci√≥n flexible, compresi√≥n, lectura paralela
- **Ecosistema**: Xarray, Dask, Pangeo

### Parquet
- **Uso**: Datos tabulares (estaciones meteorol√≥gicas, series temporales)
- **Ventajas**: Columnar, compresi√≥n eficiente
- **Ecosistema**: Pandas, Dask, Apache Arrow

### Cloud-Optimized GeoTIFF (COG)
- **Uso**: Im√°genes satelitales, rasters
- **Ventajas**: Streaming eficiente, overview pyramids
- **Ecosistema**: GDAL, Rasterio

En el siguiente cuadernillo nos enfocaremos en **Zarr**, el m√°s usado para datos cient√≠ficos multidimensionales.

````{admonition} Punto de control
:class: success

En este punto deber√≠as entender:
- ‚úÖ Por qu√© los datos listos para an√°lisis ahorran tiempo
- ‚úÖ C√≥mo los formatos optimizados para nube mejoran el rendimiento
- ‚úÖ Los cuatro principios FAIR y su importancia
- ‚úÖ La diferencia entre almacenamiento monol√≠tico y fragmentado
- ‚úÖ Qu√© tipos de formatos ARCO existen

Si algo no est√° claro, revisa las secciones anteriores.
````

---

## Resumen

En este cuadernillo aprendiste los conceptos fundamentales de ARCO:

‚úÖ **Datos listos para an√°lisis**: Reducen el 80% del tiempo dedicado a limpieza de datos

‚úÖ **Formatos optimizados para la nube**: Permiten acceso eficiente, paralelo y selectivo

‚úÖ **Principios FAIR**: Hacen que los datos sean Encontrables, Accesibles, Interoperables y Reutilizables

‚úÖ **Fragmentaci√≥n vs Monol√≠tico**: Los datos fragmentados permiten acceso selectivo

‚úÖ **Panorama de formatos**: Zarr (arrays), Parquet (tabular), COG (rasters)

Estos conceptos son la base para trabajar con grandes vol√∫menes de datos cient√≠ficos de manera eficiente en entornos modernos de computaci√≥n.

### ¬øQu√© sigue?

Ahora que entiendes los conceptos ARCO, en el siguiente cuadernillo aprender√°s **Zarr** en profundidad:

- Qu√© es Zarr y c√≥mo funciona
- Exportar datos a formato Zarr
- Usar carga perezosa (lazy loading)
- Optimizar estrategias de fragmentaci√≥n
- Comparar rendimiento con formatos tradicionales

üëâ Contin√∫a con: [Formato Zarr](./1.8.Formato-Zarr.ipynb)

---

## üìö Recursos y Referencias

- Abernathey, R. et al. (2021). Cloud-Native Repositories for Big Scientific Data. *Computing in Science & Engineering*, 23(2), 26-35.
- Wilkinson, M. D. et al. (2016). The FAIR Guiding Principles for scientific data management and stewardship. *Scientific Data*, 3, 160018.
- Crowdflower (2016). Data Science Report. https://www2.cs.uh.edu/~ceick/UDM/CFDS16.pdf
- Pangeo Community (2024). Cloud-Optimized Data Formats. https://pangeo.io/