<img align="center" src="../extra/logos/logos.png" width='1200px'>

# Carga de datos en el DataCube Chile &#127758;

¡Sigamos con este tutorial! En [00_Acceso.ipynb](00_Acceso.ipynb) aprendimos a conectarnos a la instancia DataCubeChile, e importar repositorios. 

En este apartado, se verán las operaciones básicas que se pueden realizar con el DataCube:
* Definir una área de estudio
* Buscar productos y mediciones
* Solicitar la información
* Visualizar la información

Aunque, hasta ahora no hemos explicado qué son los Jupyter Notebooks, así que partiremos por ello. Verás que son muy útiles...

***

>**Nota**: Este notebook contiene elementos extraídos desde [DataCube Australia](https://github.com/GeoscienceAustralia/dea-notebooks).

>**Nota**: Si tiene problemas para desplegar este notebook, abra una terminal de Linux (File -> New -> Terminal), navegue hasta la carpeta donde está este notebook y escriba `jupyter trust 01_Carga_datos.ipynb`. Luego, vuelva a abrir el notebook.

***

# 1. Jupyter Notebook &#x1f4d3;

Nacido del acrónimno **Ju**lia + **Pyt**hon + **R**, esta aplicación permite interactuar nativamente con estos tres lenguajes de programación. De momento sólo está instalado Python (**versión 3.10**), aunque se puede habilitar R también. La ventaja de Jupyter es que permite una interacción directa entre código, texto y resultados.

## 1.1 ¿Cómo funciona?

Los notebooks de Jupyter permiten que el código se separe en secciones que se pueden ejecutar de forma independiente entre sí. Estas secciones se denominan "celdas". 

Puedes viajar entre las celdas con las flechas arriba/abajo de tu teclado. 

Existen 3 tipos de celdas: "Code", "Markdown", "Raw". Puedes elejir el tipo de celda a la derecha del botón &#11208;&#11208;.

El código Python se escribe en celdas individuales de tipo "Code".

Al ejecutar una celda se ejecuta todo el contenido de esta. El resultado de la celda aparacererá directamente debajo de ella. Solo la última salida producida por la celda aparecerá como resultado, por lo que si desea ver el resultado de pasos intermedios, debe separar el código entre multiples celdas o utilizar el comando `print` en las partes de interés.

- a. Para ejecutar una celda en particular, debe seleccionarla y presionar Shift-Enter en el teclado o seleccionar el botón &#11208; "Run the selected cells and advance" en la parte superior del notebook.
- b. Para ejecutar todas las celdas en un notebook, navegue a la pestaña "Run" y luego seleccione "Restart Kernel and Run All Cells...". 

Mira, ¡abajo te mostramos donde tienes que hacer clic para ejecutar celdas!

<img align="center" src="../extra/capturas/intro1.png" height='500px'>

El símbolo `[ ]:`  ubicado a la izquierda de cada celda de código, describe el estado de la celda:

* `[ ]:` significa que la celda aún no se ha ejecutado.
* `[*]:` significa que la celda se está ejecutado.
* `[1]:` significa que la celda ha terminado de ejecutarse. Este número va variando e indica el orden en que las celdas han sido ejecutadas

> **Nota:** Para comprobar si una celda se está ejecutando actualmente, inspeccione el círculo pequeño en la parte superior a la derecha (donde dice Python 3 &#11096;).
El círculo se volverá gris ("Kernel ocupado") cuando la celda se esté ejecutando y volverá a estar vacío ("Kernel inactivo") cuando se complete el proceso.

***
## 1.2 Tipos de celdas

### 1.2.1 Celdas de código (Code)

Todas las operaciones de código se realizan en celdas de código.
Las celdas de código se pueden usar para editar y escribir código nuevo, y realizar cualquier tipo de tarea, como también ejecutar análisis. 
Estas celdas tienen la misma funcionalidad que la consola que provee iPython y algunos de sus comandos ["mágicos"](https://ipython.readthedocs.io/en/stable/interactive/magics.html) se pueden utilizar también.

### 1.2.2 Celdas de escritura (Markdown)

Las celdas de Markdown proporcionan el contexto al notebook y permiten que darle una orientación al usuario, ya que permiten describir de manera más extendida y detallada lo que sucede en el código.
Para ver algunas de las opciones de formato para el texto en una celda de Markdown, navegue a la pestaña "Ayuda" de la barra de menú en la parte superior de JupyterLab y seleccione "Markdown Reference".
Existe una amplia gama de opciones de formato de texto, incluidos títulos, puntos, cursiva, hipervínculos, creación de tablas e inclusión de imágenes/figuras. 

### 1.2.3 Celdas de escritura (Raw)

Las celdas Raw permiten escribir texto que no será formateado, similar a escribir en un bloc de notas. 

***
## 1.3 Ejecutar/Detener procesos

Si por algún motivo se requiere detener la ejecución de una celda antes de que finalice (por ejemplo, si un proceso tarda demasiado en completarse o si el código debe modificarse antes de ejecutar la celda), se puede detener haciendo clic en el botón "detener" &#9632;  ("Interrupt the kernel"), en la parte superior del notebook.

Para probar esto, ejecute la siguiente celda de código.
Esto ejecutará un fragmento de código que tardará 20 segundos en completarse.
Para interrumpir este código, presione la tecla &#9632; (botón "Stop").

In [None]:
import time
print('Voy a dormir un rato...')
time.sleep(20)
print('¡Listo, como tuna!')

Si esto no funciona (si el notebook no responde), se puede reiniciar el notebook. Para hacer esto, navegue a la pestaña "Kernel" de la barra de menú, luego seleccione "Restart Kernel" o el botón &#x21bb; ("Restart the kernel").
Reiniciar el notebook también sirve para verificar que el código funciona correctamente desde que se inicia por primera vez. Para ello, pulse el botón &#11208;&#11208;.

***

## 1.4 Guardar cambios

Las modificaciones que se hagan sobre el notebook son guardadas automáticamente cada ciertos minutos. Para guardar los cambios en cualquier momento, haga clic en el icono &#128190; ("save"), en la parte superior izquierda del notebook.

***

# 2. Explorar productos y mediciones &#128752;

Se puede tener una idea de los productos y la cobertura de las imágenes disponibles en el cubo en el [Explorador de imágenes](https://explorer.datacubechile.cl/).
Dentro de la nomenclatura de DataCube, se habla de productos y mediciones:

1. **Productos**: corresponden a los sensores. Por ejemplo, en el caso de Landsat-8, es una plataforma (satélite) que tiene dos sensores asociados, uno óptico (Operational Land Imager, OLI), que corresponde al producto `landsat8_c2l2_sr` y uno termal (Thermal Infrared Sensor, TIRS), que corresponde al producto `landsat8_c2l2_st`. Adicionalmente, hay un tercer producto para esta misma plataforma, que se llama `landsat8_geomedian_annual`. Todos estos productos son de la colección y nivel 2, pero podrían agregarse otros productos para la misma plataforma de otras colecciones y niveles.
2. **Mediciones**: corresponden a las bandas que tiene cada producto. Cada banda abarca un rango específico del espectro electromagnético que es capturado por los distintos componentes del sensor y almacenado en matrices independientes. También pueden existir mediciones auxiliares, que indican calidad u otras características relevantes. Siguiendo con el ejemplo anterior, `landsat8_c2l2_sr` tiene un total de 10 mediciones, 3 de las cuales corresponden a bandas de calidad.

***

## 2.1 Cargar paquetes relevantes

La celda a continuación carga los paquetes que permiten acceder al DataCube y sus funcionalidades.

In [None]:
from dask.distributed import Client, LocalCluster
cluster = LocalCluster()
client = Client(cluster)

In [None]:
import datacube
import xarray as xr
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from odc.ui import DcViewer
from datacube.utils import masking
from datacube.utils.rio import configure_s3_access

configure_s3_access(aws_unsigned=False, requester_pays=True, client=client)

Partimos importando todas las librerías y funciones que vamos a necesitar.

Importamos las librerías:
- `datacube`: la librería principal de datacube.
- `xarray`: para representar las imágenes,
- `numpy`: la típica librería de cálculo científico.
- `pandas`: para manejo y analisis de datos.
- `matplotlib`: para plotear visualizaciones de datos e imágenes.
- `odc`: un componente de la librería datacube que tiene funciones de procesamiento de imágenes.

La última linea `configure_s3_access(aws_unsigned=False, requester_pays=True)` permite acceder a los buckets de S3 en donde están almacenados los datos del cátalogo de Open Data de AWS (Landsat y Sentinel-2).

Al iniciar, es necesario generar una app del cubo con un nombre. Esto no afecta en nada el desempeño y solo cumple motivos de trazabilidad en caso de algún problema. El nombre puede ser de cualquier tipo, pero se recomienda que sea algo relacionado con la aplicación que se le dará:

In [None]:
dc = datacube.Datacube(app='Basic_tutorial') 

***

## 2.2 Explorar productos

Una vez se tiene la app funcionando (en este caso `dc`), se pueden listar los productos disponibles.

> **Nota:** Para explorar documentación sobre listar productos haga [click aquí](https://opendatacube.readthedocs.io/en/latest/api/indexed-data/generate/datacube.Datacube.list_products.html#datacube.Datacube.list_products).

In [None]:
dc.list_products()

Actualmente está disponible la serie completa de Landsat (5, 7 y 8), Sentinel-2 y el DEM SRTM.

***

## 2.3 Explorar mediciones

Cada producto contiene mediciones (`measurements`) a las cuáles es posible acceder. A continuación se muestra un listado de las mediciones disponibles para dos sensores (Landsat 8 y Sentinel-2)

> **Nota:** Para explorar documentación sobre listar mediciones haga [click aquí](https://opendatacube.readthedocs.io/en/latest/api/indexed-data/generate/datacube.Datacube.list_measurements.html#datacube.Datacube.list_measurements)

In [None]:
products = ['landsat8_c2l2_sr', 's2_l2a']
dc.list_measurements().loc[products]

Cada una de estas filas se corresponde con una "banda" del sensor. Como se puede apreciar, no todas corresponden a mediciones directas realizadas por el sensor. En el caso de Landast y Sentinel, siempre están presentes bandas de calidad. También hay algunos sub-productos en algunos casos.

Hay que prestar atención a las columnas `dtype`, `units` y `nodata`. En ellas se indican el tipo de dato (entero corto, largo, flotante, etc), las unidades, y el valor de datos NA, respectivamente. Hay que tenerlos presente al momento de trabajar con alguna de estas métricas. Por ejemplo, las bandas de reflectancia poseen tipo entero (uint16), pero la reflectancia posee valores en el rango `[0-1]`; es por esta razón que es necesario escalar la información (10.000 en este caso).

***

# 3. Definir solicitud &#x1f4dd;

Para poder cargar las imágenes deseadas, es necesario definir algunos puntos primero:

1. Definir producto (sensor)
1. Definir mediciones requeridas (bandas)
1. Definir ventana temporal de trabajo (rango)
1. Definir ventana espacial de trabajo (extensión: latitud, longitud)
1. Definir una proyección espacial de salida (códigos EPSG)
1. Definir una resolución espacial de salida (grano)

Los productos y mediciones ya fueron expuestos en las secciones 2.3 y 2.4. 

La ventana temporal de trabajo corresponde al rango en formato "YYYY-MM-DD" (Año-Mes-Día). Este rango puede ser mayor al rango de imágenes disponible para el producto y debe ser especificado de la siguiente manera `("2020-01-01", "2020-12-31")`. Esto quiere decir, desde el 01 de enero del 2020 al 31 de diciembre del 2020.

La ventana espacial de trabajo corresponde a la extensión geográfica cuyas coordenadas se proporcionan en grados decimales. Por ejemplo si quisiera capturar el área metropolitana de Santiago de Chile, debo proporcionar la latitud (eje y) como `(-34.0, -33.0)`, y la longitud (eje x) como `(-71.0, -70.0)`.

La proyección espacial de salida se especifica siguiendo los códigos EPSG, para indicar que utilizaremos UTM en zona 19 Sur debemos escribir `"EPSG:32719"`. Puede explorar la siguiente página para más opciones [ESPG](https://epsg.io/)

La resolución espacial de salida se puede solicitar con valores diferente a la resolución nativa. Para ello, basta con modificar la opción de resolución a la deseada. Por defecto, se utiliza el método de remuestreo "nearest neighbour", pero los siguientes están también disponibles (agregando por ejemplo, la opción `resampling= "cubic"`:
```
"nearest", "cubic", "bilinear", "cubic_spline", "lanczos", 
"average", "mode", "gauss", "max", "min", "med", "q1", "q3"
```
>**Nota**: Las unidades de la opción `resolution` corresponden a las unidades del crs específicado en `output_crs`. Hay que prestar atención a que normalmente el primer elemento es negativo, dada la forma en que se almacenan las coordenadas en las imágenes (el inicio está esquina superior izquierda) y la forma en que operan la mayoría de los crs (con un "inicio" en la esquina inferior izquierda).

También es posible añadir la opción `group_by= "solar_day"` para que escenas de diferentes horas (diferentes 'tiles'), pero un mismo día queden en el cubo como si fuera una sola gran escena (si pertecene al mismo día).

Siguiendo lo ya mencionado, podemos solicitar todas las mediciones (bandas) de landsat 8 para Santiago en el año 2020.

In [None]:
query = {
    "product": "landsat8_c2l2_sr",
    "y": (-34.0, -33.0), 
    "x": (-71.0, -70.0),
    "time": ("2020-01-01", "2020-12-31"),
    "output_crs": "EPSG:32719",
    "resolution": (-30, 30),
    "dask_chunks": {"time": 1, 'x':2048, 'y':2048},
    "group_by": "solar_day"
}

Desde el query anterior queda pendiente definir la utilización de "dask_chunks". Esto se realizará en notebooks más avanzados.

***

# 4. Solicitar datos &#128389;

Utilizaremos el query anterior para cargar el requerimiento al cubo de la siguiente forma:

In [None]:
ds = dc.load(**query)

***

# 5. Explorar datos solicitados &#128270;

El objeto `ds` contiene los datos solicitados almacenado como `xarray.Dataset`.

`OpenDataCube` funciona sobre la librería [`xarray`](https://xarray-contrib.github.io/xarray-tutorial/scipy-tutorial/00_overview.html), la cual permite trabajar en multiples dimensiones de manera eficiente. La estructura de datos es muy similar al formato [NetCDF](https://psl.noaa.gov/data/gridded/whatsnetCDF.html) y una de las principales ventajas, es que permite trabajar con la librería [`Dask`](https://dask.org/), la cual permite paralelizar cargas de trabajo.

In [None]:
ds

La ejecución de la celda anterior nos muestra el contenido del objeto `ds`:

1. ***Dimensions***: es un listado simple, que identifica las dimensiones del arreglo. En este caso es tridimencinoal con (tiempo, latitud, longitud), pero cualquier otra combinación es posible (1, 2, 3, 4, ..., X dimensiones).
1. ***Coordinates***: identifica el valor de cada una de las dimensiones, en cada uno de sus "instantes". En este caso `time` representa la fecha para cada tiempo, `x` e `y` son las coordenadas geográficas de cada pixel.
1. ***Data variables***: son las mediciones, normalmente "bandas" del sensor, pero puede ser cualquier otro tipo. En este caso, por cada unidad `time`, existe una imagen completa con coordenadas `x`, `y` (un objeto `xarray.DataArray`).
1. ***Attributes***: identifica el sistema de coordenadas de referencia de la información cargada.

Se puede ver con mayor detalle alguna de las variables/mediciones. En el fondo esta una colección dentro de otra.

In [None]:
ds['red']

El objeto anterior corresponde a un subconjunto de `ds`, correspondiente a la banda roja almacenada como `xarray.DataArray`. 

Es importante resaltar algunos aspectos respecto a la salida anterior.

1. **Bytes**: Tamaño total de la colección, y el tamaño de cada chunk.
1. **Shape**: Dimensiones del arreglo. En este caso es (tiempo, y, x) para toda la colección solicitada y para cada chunk. En este último caso, un chunk sólo abarca un tiempo según lo definido en el query.
1. **Data type**: tipo de datos (entero, flotante, etc) y estructura (numpy array, dask array, etc).

Por lo demás, las coordenadas y atributos son similares al objeto anterior.

Un punto importante sobre el funcionamiento del DataCube, es que `xarray` es *lazy*, lo que quiere decir que no hace todo los cálculos en el momento en que se escribe, si no que lo hace sólo cuando es necesario. Es importante tener esto presente, porque por cada acción que se le solicita al cubo, se van acumulando tareas y si se llega a un número demasiado alto, al momento de hacer un cálculo tomará demasiado tiempo y el sistema podría colapsar.

En otros tutoriales ahondaremos más en Dask; es un tema importante, pero extenso.

***

# 6 Visualización &#128506;

La visualización de información es una etapa crucial en el manejo de información satelital. En este apartado se verá como desplegar la zona de estudio, mostrar una banda en particular y generar algunos compuestos.

## 6.1 Área de estudio

Dentro de las funciones utilitarias que hay, está la que se muestra a continuación, la cual permite revisar el área de estudio en un mapa interactivo con Google Maps.
De esta forma, se puede revisar que la zona sea la apropiada para el fenómeno que se desea estudiar.

In [None]:
from dea_tools.plotting import display_map, rgb

In [None]:
display_map(x = query['x'], y = query['y'])

## 6.2 Bandas

Para visualizar bandas individuales utilizaremos `matplotlib`, una librería clásica de Python que está completamente integrada con `xarray`. Esta librería puede ser llamada de manera tradicional o como un método dentro del arreglo.

Como ya exploramos la banda roja del objeto `ds`, ahora exploraremos la primera imagen de esta banda utilizando el siguiente código:

In [None]:
primera_roja = ds['red'].isel(time = 0)
primera_roja

Del resultado anterior destacamos:

1. Como se seleccionó una unidad de tiempo en particular, dicha dimensión fue descartada del arreglo (ahora posee dimensiones `x`, `y` solamente. El tiempo (`time`), pasó a ser una etiqueta informativa solamente.
2. Se utilizó `isel`, que realiza una selección por ubicación y no por el valor. En este caso `.isel(time=0)` selecciona la primera fecha disponible. `.isel=1` seleccionará la segunda fecha disponible y así hasta el largo de la dimensión. Para seleccionar por el valor y no la posición se utiliza `sel`, que en este caso sería `sel='2022-01-14'`.

>**Nota**: Es importante notar que Python cuenta la posición en los arreglos de cualquier tipo, partiendo por 0. Así, para acceder al primer elemento de un vector (por ejemplo `mi_vector`) de largo 10, se utiliza `mi_vector[0]`; para acceder al último elemento, se puede utilizar `mi_vector[9]` o `mi_vector[-1]`. Si se utiliza `mi_vector[10]` arrojará un error porque no encuentra el elemento.

Para graficar el objeto `primera_roja`, basta con usar el método `plot()` del objeto:

In [None]:
primera_roja.plot()

Para visualizar más escenas en un mismo plot se puede utilizar el siguiente código:

In [None]:
ds['red'].isel(time=range(3)).plot(col='time', figsize=(20, 5))

Podemos continuar agregando argumentos y ajustando parámetros para mejorar la visualización, tal como el siguiente ejemplo:

In [None]:
ds['red'].isel(time=range(3)).plot(col='time', robust=True, cmap='inferno', figsize=(20, 5))

Para mayor información sobre este tipo de gráficos, revisar la [documentación de xarray](http://xarray.pydata.org/en/stable/user-guide/plotting.html#faceting)

## 6.3 Falso color

Visualizar la escena en colores, tal como lo harían nuestros ojos, es un poco más complicado.
Para esto utilizamos la técnica de falso color, que permite combinar tres bandas para construir una imagen en colores RGB (Red - Green - Blue).

Exploraremos tres formas:
1. La función `rgb` es una función extra, parte del ecosistema de ODC, que permite visualizar fácilmente una imagen en colores RGB de un dataset.

In [None]:
rgb(ds, bands=["red", "green", "blue"], index=1)

2. Utilizando `matplotlib`, es una forma más manual pero que permite mayor control.

In [None]:
ds[["red", "green", "blue"]].isel(time=1).to_array().plot.imshow(vmin=7500, vmax=15000, robust=True, figsize=(5, 6))

3. Utilizando `holoviews`, una librería que permite una mayor dinamismo y velocidad al momento de visualizar una imagen. Es más compleja de utilizar, pero tiene varias ventajas para el usuario final.

In [None]:
import holoviews as hv
import hvplot.xarray
from datashader import reductions

Este código es para visualizar una sola banda:

In [None]:
ds['red'].hvplot.image(
     x = 'x', y = 'y',                        # Dataset x,y dimension names 
     rasterize = True,                        # If False, data will not be reduced. This is slow to load but all data is loaded.
     aggregator = reductions.mean(),          # Datashader calculates the mean value for reductions (also first, min, max, las, std, mode)
     precompute = True,                       # Datashader precomputes what it can
     data_aspect = 1
    )

Este código para visualizar un RGB:

In [None]:
ds[["red", "green", "blue"]].to_array().hvplot.rgb(
     x = 'x', y = 'y',                        # Dataset x,y dimension names 
     bands = 'variable', 
     rasterize = True,                        # If False, data will not be reduced. This is slow to load but all data is loaded.
     aggregator = reductions.mean(),          # Datashader calculates the mean value for reductions (also first, min, max, las, std, mode)
     precompute = True,                       # Datashader precomputes what it can
     data_aspect = 1, 
    )

¿Por qué no funciona? Porque, en primer lugar, es necesario transformar la información a reflectancia... Lo veremos en el siguiente notebook!

In [None]:
client.close()

cluster.close()

***

# *Siguientes pasos* &#128062;

Para continuar con el tutorial pueden acceder a los notebooks del siguiente listado.

1. [Acceso](00_Acceso.ipynb)
2. **Cargar datos**
3. [Limpieza](02_Limpieza.ipynb)
4. [Análisis básico](03_Análisis_básico.ipynb)
5. [Caso de estudio 1](04_Caso_de_estudio_1.ipynb)
6. [Caso de estudio 2](05_Caso_de_estudio_2.ipynb)
7. [Trabajo final](04_Actividad_final.ipynb)

***