# 3. Manejando Netcdf

Para manejar netcdfs usando python haremos uso extensivo de los paquetes estrella de la plataforma Pangeo. Pangeo es un esfuerzo de la comunidad que promueve la reproductibilidad, escalamiento y transparencia en la ciencia.

El paquete de cabecera para el manejo de netcdfs será [xarray](http://xarray.pydata.org/en/latest/). Xarray extiende las capacidades de numpy en el manejo de datos n-dimensionales introduciendo etiquetas en forma de dimensiones, coordenadas y atributos que facilitan las operaciones sobre los mismos. El motor para las operaciones entre fechas es proporcionado por pandas y la escalabilidad de los datos es proporcionado por dask, lo cual convierte a este paquete en una herramienta poderosa.

In [None]:
%matplotlib inline
import numpy as np
import xarray as xr
import matplotlib.pyplot as plt

## 3.1 Estructuras de xarray

xarray cuenta con dos estructuras simples que son fundamentales comprender para un mejor uso del paquete. Esta es una brevisima descripción sobre algunos conceptos claves que se deben tener presentes, mayor informacion la pueden encontrar siempre en la [documentacion](http://xarray.pydata.org/en/stable/data-structures.html#)

### 3.1.1 DataArray

Un `DataArray` es virtualmente igual a un arreglo n-dimensional de numpy que cuenta con etiquetas en sus dimensiones, siendo el elemento base de xarray. Para denifinir un `DataArray` necesitaremos proporcionar, como mínimo, una arreglo de elementos numéricos.

In [None]:
xr.DataArray(np.random.randn(10,40))

Como podemos observar, xarray automaticamente asignó nombres a las dimensiones y nos informa que no encuentra coordenadas asociadas a estas dimensiones. Ahora procederemos a declarar un `DataArray` con la información que falta

In [None]:
# Creamos un poco de data falsa
lat = np.arange(-90, 90, 0.25)
lon = np.arange(0, 360, 0.25)
llon, llat = np.meshgrid(lon, lat)
data = np.sin(llat**2-llon**2)

# Creamos el DataArray
xarr = xr.DataArray(data, coords=[lat,lon], dims=["lat","lon"])
xarr

Nuestro `DataArray` ha sido creado dentro de la variable `xarr` satisfactoriamente con las dimensiones y coordenadas asignadas correctamente. Ahora podemos acceder a los métodos que xarray ofrece para sus objetos.

In [None]:
xarr.plot()

### 3.1.2 Dataset

Un `Dataset` es la representación en la memoria del sistema de un archivo netcdf. Al igual que en pandas un `DataFrame` es un conjunto de `Series`, un `Dataset` es un conjunto de `DataArray`. Su declaración es un poco más extensa que un `DataArray` pero a cambio proporciona un contenedor a varias variables.

## 3.2 Datos Reales

Para cargar datos en formato netcdf a una variable, se hacer uso de la función `open_dataset` (en el caso de tener 1 solo archivo) o `open_mfdataset` en caso de tener muchos archivos

In [None]:
ersstv5 = xr.open_dataset('https://www.esrl.noaa.gov/psd/thredds/dodsC/Datasets/noaa.ersst.v5/sst.mnmean.nc')
ersstv5

Como podemos observar, la información mostrada es muy similar a lo que uno obtendría al usar `ncdump -h` en la linea de comandos sobre un archivo netcdf. Esta variable, al ser un objeto de xarray, nos da acceso a una variedad de métodos muy útiles para el procesamiento y manejo de dato en geociencias.

### Calculo del ONI
Como ejemplo, vamos a calcular el ONI (Oceanic Nino Index) y compararemos nuestros resultados con los resultados oficiales de la NOAA. El ONI esta definido como la media corrida de 3 meses sobre el indice del Niño 3.4 (5°S-5°N / 170°W-120°W)

In [None]:
nino34 = ersstv5.sst.sel(lat=slice(5,-5), lon=slice(190, 240))
nino34

- #### Calculamos la climatología
Para realizar este cálculo, vamos a tomar como periodo base 1986-2015, acorde a la última climatología considerada por el ONI.

In [None]:
nino34_clim = nino34.groupby("time.month").mean(dim='time')
nino34_clim

- #### Calculamos la anomalía
Utilizaremos una sintaxis similar para restar las climatologías

In [None]:
nino34_anom = nino34.groupby('time.month') - nino34_clim
nino34_anom

In [None]:
ONI = nino34_anom.mean(dim=['lon','lat']).rolling(time=3).mean(dim='time')
ONI

In [None]:
ONI.sel(time=slice("2008-01-01","2019-12-31")).plot()

Agregamos un poco de estilo al gráfico

In [None]:
fig, ax = plt.subplots(dpi=300)
ONI.sel(time=slice("2008-01-01","2019-12-31")).plot(ax=ax)
ax.set_ylim(-4, 4)
ax.grid(ls='--',lw=0.5)