<img align="center" src="../extra/logos/logos.png" width='1200px'>

# 1. Jupyter Notebook

Nacido del acrónimno **Ju**lia + **Pyt**hon + **R**, esta aplicación permite interactuar nativamente con estos tres lenguajes de programación. En el cubo, de momento sólo está instalado Python (versión 3.6). La ventaja de Jupyter es que permite una interacción directa entre código, texto y resultados.

## 1.1 ¿Cómo funciona?

Los notebooks de Jupyter permiten que el código se separe en secciones que se pueden ejecutar de forma independiente entre sí. Estas secciones se denominan "celdas". 

El código Python se escribe en celdas individuales que se pueden ejecutar colocando el cursor en la celda y presionando Shift-Enter en el teclado o seleccionando el botón &#11208; "Ejecutar las celdas seleccionadas y avanzar" en la parte superior del notebook. Estas opciones se ejecutarán en una sola celda a la vez. 

Para ejecutar automáticamente todas las celdas en un notebook, navegue hasta la pestaña "Ejecutar" de la barra de menú en la parte superior de JupyterLab y seleccione "Ejecutar todas las celdas" (o la opción que mejor se adapte a sus necesidades). Cuando se ejecuta una celda, se ejecuta el contenido de la celda. Cualquier salida producida al ejecutar la celda aparecerá directamente debajo de ella. Sólo la última salida aparecerá como resultado, por lo que si desea ver el resultado de pasos intermedios, se debe separar en celdas o utilizar el comando `print` en las partes de interés.

El símbolo `[ ]:`  la izquierda de cada celda de Código, describe el estado de la celda:

* `[ ]:` significa que la celda aún no se ha ejecutado.
* `[*]:` significa que la celda se está ejecutado.
* `[1]:` significa que la celda ha terminado de ejecutarse. Este número va variando e indica el orden en que las celdas han sido ejecutadas

> **Nota:** Para comprobar si una celda se está ejecutando actualmente, inspeccione el círculo pequeño en la parte superior a la derecha (donde dice Python 3 &#11096;).
El círculo se volverá gris ("Kernel ocupado") cuando la celda se esté ejecutando y volverá a estar vacío ("Kernel inactivo") cuando se complete el proceso.

 
## 1.2 Tipos de celdas

### 1.2.1 Celdas de código

Todas las operaciones de código se realizan en celdas de código.
Las celdas de código se pueden usar para editar y escribir código nuevo y realizar cualquier tipo de tarea, como también ejecutar análisis. 
Estas celdas tienen la misma funcionalidad que la consola de que provee iPython y algunos de sus comandos ["mágicos"](https://ipython.readthedocs.io/en/stable/interactive/magics.html) se pueden utilizar también.

### 1.2.2 Celdas de escritura (markdown)

Las celdas de Markdown proporcionan el contexto al notebook y permiten que darle una orientación al usuario, ya que permiten describir de manera más extendida y detallada lo que sucede en el código.
Para ver algunas de las opciones de formato para el texto en una celda de Markdown, navegue a la pestaña "Ayuda" de la barra de menú en la parte superior de JupyterLab y seleccione "Markdown Reference".
Existe una amplia gama de opciones de formato de texto, incluidos títulos, puntos, cursiva, hipervínculos, creación de tablas e inclusión de imágenes/figuras. 

## 1.3 Ejecutar/Detener procesos

Si por algún motivo se requiere detener la ejecución de una celda antes de que finalice (por ejemplo, si un proceso tarda demasiado en completarse o si el código debe modificarse antes de ejecutar la celda), se puede hacer haciendo clic en el &#9632; Botón "detener" ("Interrupt the kernel"), en la parte superior del notebook. 

Para probar esto, ejecute la siguiente celda de código.
Esto ejecutará un fragmento de código que tardará 20 segundos en completarse.
Para interrumpir este código, presione la tecla &#9632; (botón "Stop").

In [1]:
import time
print('Voy a dormir un rato...')
time.sleep(10)
print('¡Listo, como tuna!')

Voy a dormir un rato...
¡Listo, como tuna!


Si esto no funciona (si el notebook no responde), se puede reiniciar el notebook. Para hacer esto, navegue a la pestaña "Kernel" de la barra de menú, luego seleccione "Restart Kernel" o el botón &#x21bb; ("Restart the kernel").
Reiniciar el notebook también sirve para verificar que el código funciona correctamente desde que se inicia por primera vez. Para ello, pulse el botón &#11208;&#11208;.

# 2. Carga de datos

1. Descripción de productos
1. Descripción de mediciones
1. Ventana espacial
1. Ventana temporal
1. Proyección y resolución de salida

Dentro de la nomenclatura de DataCube, se habla de productos y mediciones:

1. Productos: corresponden a los sensores. Por ejemplo, en el caso de Landsat-8, es una plataforma (satélite) que tiene dos sensores asociados, uno óptico (Operational Land Imager, OLI), que corresponde al producto `landsat8_c2l2_sr` y uno termal (Thermal Infrared Sensor, TIRS), que corresponde al producto `landsat8_c2l2_st`. Adicionalmente, hay un tercer producto para esta misma plataforma, que se llama `landsat8_geomedian_annual`. Todos estos productos son de la colección y nivel 2, pero podrían agregarse otros productos para la misma plataforma de otras colecciones y niveles.
2. Mediciones: corresponden a las bandas que tiene cada producto. Cada banda abarca un rango específico del espectro electromagnético que es capturado por los distintos componentes del sensor y almacenado en matrices independientes. También pueden existir mediciones auxiliares, que indican calidad u otras características relevantes. Siguiendo con el ejemplo anterior, `landsat8_c2l2_sr` tiene un total de 10 mediciones, 3 de las cuales corresponden a bandas de calidad.

## 2.1 Explorador

Explorador permite ver los productos de manera más sencilla e interactiva, así como las mediciones asociadas a cada producto ...... [link](https://explorer.datacubechile.cl)

## 2.2 DataCube

In [23]:
import datacube
from odc.ui import DcViewer

from datacube.utils import masking
from datacube.utils.rio import configure_s3_access
configure_s3_access(aws_unsigned=False, requester_pays=True)

<botocore.credentials.Credentials at 0x7fd931661130>

La última linea permite acceder a los buckets de S3 en donde están almacenados los datos del cátalogo de Open Data de AWS (Landsat y Sentinel-2).

Es necesario generar una app del cubo con un nombre. Esto no afecta en nada el desemepño y es solamente por motivos de trazabilidad en caso de algún problema. El nombre puede ser de cualquier tipo, pero se recomienda que sea algo relacionado con la aplicación que se le dará.

In [19]:
dc = datacube.Datacube(app='SAMSARA') # https://opendatacube.readthedocs.io/en/latest/api/core-classes/datacube.html

[listar productos](https://opendatacube.readthedocs.io/en/latest/api/indexed-data/generate/datacube.Datacube.list_products.html#datacube.Datacube.list_products) y [listar mediciones](https://opendatacube.readthedocs.io/en/latest/api/indexed-data/generate/datacube.Datacube.list_measurements.html#datacube.Datacube.list_measurements) .....

In [6]:
dc.list_products()

Unnamed: 0_level_0,name,description,license,default_crs,default_resolution
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
asf_s1_rtc_grd_hd,asf_s1_rtc_grd_hd,Sentinel 1 Radiometrically Terrain Corrected,CC-BY-4.0,EPSG:4326,"(-0.0002, 0.0002)"
copernicus_dem_30,copernicus_dem_30,Copernicus 30m Digital Elevation Model (GLO-30),,EPSG:4326,"(-0.00027777777777778, 0.00027777777777778)"
copernicus_dem_90,copernicus_dem_90,Copernicus 90m Digital Elevation Model (GLO-90),,,
fasat_charlie,fasat_charlie,FASat Charlie data,,,
landsat5_c2l2_sr,landsat5_c2l2_sr,Landsat 5 Collection 2 Level-2 Surface Reflect...,,,
landsat5_c2l2_st,landsat5_c2l2_st,Landsat 5 Collection 2 Level-2 UTM Surface Tem...,CC-BY-4.0,,
landsat5_geomedian_annual,landsat5_geomedian_annual,Surface Reflectance Annual Geometric Median an...,,EPSG:6933,"(-30, 30)"
landsat7_c2l2_sr,landsat7_c2l2_sr,Landsat 7 USGS Collection 2 Surface Reflectanc...,,,
landsat7_c2l2_st,landsat7_c2l2_st,Landsat 7 Collection 2 Level-2 UTM Surface Tem...,CC-BY-4.0,,
landsat7_geomedian_annual,landsat7_geomedian_annual,Surface Reflectance Annual Geometric Median an...,,EPSG:6933,"(-30, 30)"


In [7]:
products = ['landsat8_c2l2_sr', 's2_l2a']
dc.list_measurements().loc[products]

Unnamed: 0_level_0,Unnamed: 1_level_0,name,dtype,units,nodata,aliases,flags_definition,add_offset,scale_factor
product,measurement,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
landsat9_c2l2_sr,coastal,coastal,uint16,reflectance,0.0,"[SR_B1, band_1, B1, coastal_aerosol]",,,
landsat9_c2l2_sr,blue,blue,uint16,reflectance,0.0,"[SR_B2, band_2, B2]",,,
landsat9_c2l2_sr,green,green,uint16,reflectance,0.0,"[SR_B3, band_3, B3]",,,
landsat9_c2l2_sr,red,red,uint16,reflectance,0.0,"[SR_B4, band_4, B4]",,,
landsat9_c2l2_sr,nir08,nir08,uint16,reflectance,0.0,"[SR_B5, band_5, B5, nir]",,,
landsat9_c2l2_sr,swir16,swir16,uint16,reflectance,0.0,"[SR_B6, band_6, B6, swir1]",,,
landsat9_c2l2_sr,swir22,swir22,uint16,reflectance,0.0,"[SR_B7, band_7, B7, swir2]",,,
landsat9_c2l2_sr,qa_pixel,qa_pixel,uint16,bit_index,1.0,"[pixel_quality, level2_qa, QA_PIXEL, pixel_qa]","{'snow': {'bits': 5, 'values': {'0': 'not_high...",,
landsat9_c2l2_sr,qa_aerosol,qa_aerosol,uint8,bit_index,1.0,"[sr_aerosol, SR_QA_AEROSOL, aerosol_qa]","{'water': {'bits': 2, 'values': {'0': 'not_wat...",,
landsat9_c2l2_sr,qa_radsat,qa_radsat,uint16,bit_index,1.0,"[saturation_qa, QA_RADSAT, radsat_qa]","{'qa_radsat': {'bits': [0, 1, 2, 3, 4, 5, 6, 7...",,


Primero definir:
1. Producto
1. Extensión geográfica
1. Extensión temporal
1. Proyección y resolución

Algunos de los [parámetros](https://opendatacube.readthedocs.io/en/latest/api/indexed-data/generate/datacube.Datacube.load.html#datacube.Datacube.load) que se pueden pasar a la carga:

In [17]:
query = {
     "product": "landsat8_c2l2_sr",
     "x": (-73.5, -72.5),
     "y": (-40, -39),
     "time": ("2022-02-01", "2022-04-30"),
     "output_crs": "EPSG:32719",
     "resolution": (-30, 30),
     "dask_chunks": {"time": 1, 'x':2048, 'y':2048},
     "group_by": "solar_day"
}

Antes de mirar el objeto, hay que destacar que se puede solicitar la información en una resolución diferente a la nativa. Para ello, basta con modificar la opción de resolución a la deseada. Por defecto, se utiliza el método de remuestreo "nearest neighbour", pero los siguientes están también disponibles (agregando por ejemplo, la opción `resampling= "cubic"`:
```
"nearest", "cubic", "bilinear", "cubic_spline", "lanczos", 
"average", "mode", "gauss", "max", "min", "med", "q1", "q3"
```

>**Nota**: Las unidades de la opción `resolution` corresponden a las unidades del crs específicado en `output_crs`. Hay que prestar atención a que normalmente el primer elemento es negativo, dada la forma en que se almacenan las coordenadas en las imágenes (el inicio está esquina superior izquierda) y la forma en que operan la mayoría de los crs (con un "inicio" en la esquina inferior izquierda).

También es posible añadir la opción `group_by= "solar_day"` para que escenas de diferentes horas (diferentes 'tiles'), pero un mismo día queden en el cubo como si fuera una sola gran escena (si pertecene al mismo día).

In [21]:
ds = dc.load(**query)

# 3. Explorando resultado: Xarray

In [22]:
ds

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,110.75 MiB,4.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint8,numpy.ndarray
"Array Chunk Bytes 110.75 MiB 4.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint8 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,110.75 MiB,4.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint8,numpy.ndarray

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 221.49 MiB 8.00 MiB Shape (10, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 40 Chunks Type uint16 numpy.ndarray",3032  3830  10,

Unnamed: 0,Array,Chunk
Bytes,221.49 MiB,8.00 MiB
Shape,"(10, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,40 Chunks
Type,uint16,numpy.ndarray


De esta salida, hay un par de cosas a las que prestar atención. 

Primero, el tipo de objeto resultante. `OpenDataCube` funciona sobre la librería [`xarray`](https://xarray-contrib.github.io/xarray-tutorial/scipy-tutorial/00_overview.html), la cual permite trabajar en multiples dimensiones de manera eficiente. La estructura de datos es muy similar al formato [NetCDF](https://psl.noaa.gov/data/gridded/whatsnetCDF.html) y una de las principales ventajas, es que permite trabajar con la librería [`Dask`](https://dask.org/), la cual permite paralelizar cargas de trabajo.

1. ***Dimensions***: es un listado simple, que identifica las dimensiones del arreglo. En este caso es tridimencinoal con (tiempo, latitud, longitud), pero cualquier otra combinación es posbible (1, 2, 3, 4,...., X dimensiones).
1. ***Coordinates***: identifica el valor de cada una de las dimensiones, en cada uno de sus "instantes". En este caso `time` representa la fecha para cada tiempo y `x` e `y` son las coordenadas geográficas de cada pixel.
1. ***Data variables***: son las mediciones, normalmente "bandas" del sensor, pero puede ser cualquier otro tipo. En este caso, por cada unidad `time`, existe una imagen completa con coordenadas `x`, `y` (un objeto `xarray.DataArray`).
1. ***Attributes***: identifica el sistema de coordenadas de referencia de la información cargada.

Se puede ver con mayor detalle alguna de las variables/mediciones. En el fondo esta una colección dentro de otra.

In [20]:
ds['green']

Unnamed: 0,Array,Chunk
Bytes,442.98 MiB,8.00 MiB
Shape,"(20, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,80 Chunks
Type,uint16,numpy.ndarray
"Array Chunk Bytes 442.98 MiB 8.00 MiB Shape (20, 3830, 3032) (1, 2048, 2048) Count 1 Graph Layer 80 Chunks Type uint16 numpy.ndarray",3032  3830  20,

Unnamed: 0,Array,Chunk
Bytes,442.98 MiB,8.00 MiB
Shape,"(20, 3830, 3032)","(1, 2048, 2048)"
Count,1 Graph Layer,80 Chunks
Type,uint16,numpy.ndarray


Del objeto anterior, es importante resaltar algunos aspectos

1. Bytes: Tamaño total de la colección, y el tamaño de cada chunk.
1. Shape: Dimensiones del arreglo. En este caso es (tiempo, y, x) para toda la colección solicitada y para cada chunk. En este último caso, un chunk sólo abarca un tiempo.
1. Count: Número de tareas pendientes y número de chunks. A mayor tamaño del chunk, menor número de tareas a calcular.
1. Type: tipo de datos (entero, flotante, etc) y estructura (numpy array, dask array, etc).

>**Nota**: El tamaño "ideal" del chunk, debiera rondar los 100 MB.

Por lo demás, las coordenadas y atributos son similares al objeto anterior.

Un punto importante sobre el funcionamiento del DataCube, es que `xarray` es *lazy*, lo que quiere decir que no hace todo los cálculos en el momento en que se escribe, si no que lo hace sólo cuando es necesario. Es importante tener esto presente, porque por cada acción que se le solicita al cubo, se van acumulando tareas y si se llega a un número demasiado alto, al momento de hacer un cálculo tomará demasiado tiempo y el sistema podría colapsar.

Cuando se llega a un punto en que se sabe que se sabe será utilizado como base para otros (en el fondo un checkpoint), es posible pedirle al cubo que resuelva todas las tareas pendientes por medio de `ds.persist()`. Más adelante (próximo notebook) se verán algunos ejemplos, pero es importante tenerlo persente.

>**Nota**: ¿Cuándo invocar `persist()`? No hay una regla definitiva, pero normalmente, cuando se han acumulado alrededor de 50.000 Tasks. También es bueno invocarlo antes de por ejemplo pedir varias métricas diferentes sobre el mismo arreglo, caso contrario, cada vez que se pide una métrica se debe calcular todo cada vez (esto incluye la generación de imágenes).

# 4. Visualizaciones

> **Nota**: Clic derecho y guardar imagen sobre un plot, permite descargar la imagen

In [24]:
import sys
sys.path.append("../../dea-notebooks/Tools")

from dea_tools.plotting import display_map, rgb

In [25]:
display_map(x=query['x'], y=query['y'])

# 5. Depurar información: enmascarar valores no válidos

In [10]:
1 | 2 | 3 | 4

7

# 6. Índices espectrales

# 7. Compuestos

# 8. Exportar información