# Xarray

![logo](http://xarray.pydata.org/en/stable/_images/dataset-diagram.png)

`xarray` (antigamente conhecido como xray) é um pacote Python que faz trabalhar com arrays multi-dimensionais simples, efficente e divertido!

Arrays multi-dimensionais são uma parte essencial em computação científica. Eles são encontrados em uma grande variedade de áreas como física, astronômia, geociências, e etc. No Python, NumPy proporciona a estrutura fundamental para trabalhar com arrays multi-dimensionais. No entanto, geralmente os conjuntos de dados são mais do que números puros; eles possuem nomes (labels) que encorporam como o array é mapeado no espaço, tempo, etc.

Introduzindo dimensões, coordenadas e atributos em cima de arrays NumPy, xarray é capaz de entender esses labels e usa-lo para proporcionar uma experiência mais intuitiva, concisa e menos proícia para erros. Xarray também proporciona uma variedade de funções para análise de dados e visualização. Xarray foi inspirado e usa muito do que foi desenvolvido para o pandas. Xarray pode ler e escrever dados dos formatos mais comuns e é particularmente feito para funcionar bem com arquivos netCDF.

In [None]:
import numpy as np
import pandas as pd
import xarray as xr

import matplotlib.pyplot as plt
%matplotlib inline

## Estrutura Básica

`xarray.DataArray` possue as seguintes propriedades:
- `values`: Um numpy.ndarray com os valores do array
- `dims`: Nome das dimensões para cada eixo (e.g., ('x', 'y', 'z'))
- `coords`: Um dicionário com as coordenadas para cada eixo (e.g., Array unidimensional, objeto tipo datetime ou strings)
- `attrs`: Dicionário para os metadados arbitrários.

In [None]:
data = np.random.rand(4, 3)

data

In [None]:
locs = ['IA', 'IL', 'IN']

times = pd.date_range('2000-01-01', periods=4)

foo = xr.DataArray(data, coords=[times, locs], dims=['time', 'space'])

foo

Também pode ser criado da seguinte maneira:

In [None]:
xr.DataArray(data, coords=[('time', times), ('space', locs)])

In [None]:
foo.values

In [None]:
foo.dims

In [None]:
foo.coords

In [None]:
foo.attrs

In [None]:
foo.name = 'foo'

foo.attrs = {'created_by': 'Batman'}

In [None]:
foo

`xarray.Dataset` é o equivalente do pandas DataFrame. Possui as seguintes propriedades:

- `dims`: Um dicionário mapeando as coordenadas e o tamanho de cada coordenada (e.g., {'x': 6, 'y': 6, 'time': 8})
- `data_vars`: Um dicionário com variáveis em DataArrays
- `coords`: Um dicionário com as coordenadas para cada eixo (e.g., Array unidimensional, objeto tipo datetime ou strings)
- `attrs`: Dicionário para os metadados arbitrários.

In [None]:
temp = 15 + 8 * np.random.randn(2, 2, 3)

precip = 10 * np.random.rand(2, 2, 3)

lon = [[-99.83, -99.32], [-99.79, -99.23]]

lat = [[42.25, 42.21], [42.63, 42.59]]

ds = xr.Dataset({'temperature': (['x', 'y', 'time'],  temp),
                 'precipitation': (['x', 'y', 'time'], precip)},
                 coords={'lon': (['x', 'y'], lon),
                         'lat': (['x', 'y'], lat),
                         'time': pd.date_range('2014-09-06', periods=3)})

ds

In [None]:
xr.Dataset({'bar': foo})

In [None]:
ds['temperature']

In [None]:
ds.data_vars

## Trabalhando com um netCDF

Vamos abrir agora um arquivo netCDF de exemplo para mostrar como tirar proveito das facilidades do `xarray`.

In [None]:
ds = xr.open_dataset('data/xarray_teste.nc')

ds

In [None]:
ds.time

In [None]:
ds.sel(time=slice('2019-01-01', '2019-01-05'))

In [None]:
ds.isel(time=0)

In [None]:
ds.sel(lat=-23.6821604, lon=-46.8755003) # São Paulo

In [None]:
ds.sel(lat=-23.6821604, lon=-46.8755003, method='nearest')

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Para filtrar seus dados apenas na área ou no tempo que você quer para fazer uma análise ou comparação. O último caso, por exemplo, pode ser usado para selecionar o ponto de grade do modelo mais próximo de uma dada estação para comparação.
</div>

In [None]:
ds_ts = ds.sel(lat=-23.6821604, lon=-46.8755003, method='nearest')

df = ds_ts.to_dataframe()
df.head()

Os dados também podem ser mascarados conforme uma condição que você quer:

In [None]:
ds

In [None]:
ds.where(ds['10u'] > 3)

## Resampling dos dados

Como o `xarray` foi construído em cima do `pandas` temos as mesmas funções de resample para séries temporais. A utilidade de usar o `xarray` é que você pode fazer isso em séries 3D ou 4D.

In [None]:
ds_day = ds['prec'].resample('D', how='sum', dim='time')

ds_day

Você pode aplicar funções como `max`, `min` e `mean` usando os nomes das coordenadas em vez do eixo do array

In [None]:
ds['tmax'].mean(dim=['time'])

In [None]:
ds['tmax'].mean(dim=['lat', 'lon'])

A função `groupby` também pode ser usada:

In [None]:
ds['tmin'].groupby('time.month').mean(dim=['time'])

## Facilidades para fazer plots com o xarray

In [None]:
ds_ts = ds.sel(lat=-23.6821604, lon=-46.8755003, method='nearest')

(ds_ts['tmax'] - 273.15).plot(marker='o')

In [None]:
ds['tmax'].isel(time=0).plot(cmap='Spectral_r')

In [None]:
fig, [ax1, ax2] = plt.subplots(1, 2, figsize=(14,5))

ds['tmax'].isel(time=0).plot.contourf(ax=ax1, cmap='Spectral_r')
ds['tmax'].isel(time=0).plot.contourf(ax=ax2, cmap='Spectral_r', robust=True)

In [None]:
ds['tmax'].isel(time=slice(0,6)).plot(x='lon', y='lat', col='time', col_wrap=3)

# Cartopy

Cartopy é um pacote Python desenhada para processamento de dados geoespaciais para produzir mapas e outras análises. Ele faz uso das bibliotecas PROJ.4, NumPy e Shapely e foi construído em cima do Matplotlib. Algumas dos atrativos do cartopy são sua definição de projeções orientada a objetos, e sua habilidade de transformar pontos, linhas, vetores, polígonos e imagens entre essas projeções.

In [None]:
import cartopy.crs as ccrs

In [None]:
ax = plt.subplot(111, projection=ccrs.PlateCarree())
ax.coastlines()

In [None]:
fig = plt.figure(figsize=(14,10))
ax1 = fig.add_subplot(221, projection=ccrs.LambertConformal())
ax2 = fig.add_subplot(222, projection=ccrs.Mercator())
ax3 = fig.add_subplot(223, projection=ccrs.Orthographic(central_latitude=-23.5, central_longitude=-47.5))
ax4 = fig.add_subplot(224, projection=ccrs.Mollweide())

axarr = [ax1, ax2, ax3, ax4]
titles = ['Lambert Conformal', 'Mercator', 'Orthographic', 'Mollweide']

for ax, title in zip(axarr, titles):
    ax.coastlines()
    ax.set_title(title)

## Melhorando os plots com a interface `feature`

In [None]:
import cartopy.feature as cfeature

In [None]:
fig, ax = plt.subplots(figsize=(5,5), subplot_kw={'projection': ccrs.PlateCarree()})

# focando em uma região específica 
subset = [-85, -30, -35, 15]

ax.set_extent(subset)
ax.coastlines()

In [None]:
fig, ax = plt.subplots(figsize=(5,5), subplot_kw={'projection': ccrs.PlateCarree()})

# focando em uma região específica 
ax.set_extent(subset)
ax.coastlines('50m') # aumentando a resolução da linha de costa

In [None]:
fig, ax = plt.subplots(figsize=(5,5), subplot_kw={'projection': ccrs.PlateCarree()})

# focando em uma região específica 
ax.set_extent(subset)
ax.coastlines('50m') # aumentando a resolução da linha de costa
ax.add_feature(cfeature.BORDERS) # adicionado a divisão de países

In [None]:
fig, ax = plt.subplots(figsize=(5,5), subplot_kw={'projection': ccrs.PlateCarree()})

# focando em uma região específica 
ax.set_extent(subset)
ax.coastlines('50m') # aumentando a resolução da linha de costa
ax.add_feature(cfeature.BORDERS) # adicionado a divisão de países

states_provinces = cfeature.NaturalEarthFeature( # https://www.naturalearthdata.com/downloads/
        category='cultural',
        name='admin_1_states_provinces_lines',
        scale='50m',
        facecolor='none')

ax.add_feature(states_provinces, edgecolor='gray') # adiciona os estados

In [None]:
def my_features(ax, subset, res):
    # focando em uma região específica 
    ax.set_extent(subset)
    ax.coastlines(res) # aumentando a resolução da linha de costa
    
    cfeature.BORDERS.scale = res
    ax.add_feature(cfeature.BORDERS) # adicionado a divisão de países

    states_provinces = cfeature.NaturalEarthFeature( # https://www.naturalearthdata.com/downloads/
            category='cultural',
            name='admin_1_states_provinces_lines',
            scale=res,
            facecolor='none')

    ax.add_feature(states_provinces, edgecolor='k') # adiciona os estados

In [None]:
fig, [ax1, ax2, ax3] = plt.subplots(1, 3, figsize=(16,5), subplot_kw={'projection': ccrs.PlateCarree()})

my_features(ax1, [-49, -45, -25, -22], '110m')
my_features(ax2, [-49, -45, -25, -22], '50m')
my_features(ax3, [-49, -45, -25, -22], '10m')

axarr = [ax1, ax2, ax3]
titles = ['110m', '50m', '10m']

for ax, title in zip(axarr, titles):
    ax.set_title(title)

## Adicionando shapefiles no mapa

In [None]:
from cartopy.io.shapereader import Reader

In [None]:
fig, ax = plt.subplots(figsize=(5,5), subplot_kw={'projection': ccrs.PlateCarree()})

shpname = 'shapefiles/Uruguai-Basin-BAU.shp'
shp = Reader(shpname).geometries()

my_features(ax, [-60, -46, -35, -25], '10m')
ax.add_geometries(shp, ccrs.PlateCarree(), edgecolor='k', facecolor='red', alpha=0.8)

## Plotando dados em mapas

In [None]:
fig, ax = plt.subplots(figsize=(6,6), subplot_kw={'projection': ccrs.PlateCarree()})

lons, lats = np.meshgrid(ds['lon'], ds['lat'])

cf = ax.contourf(lons, lats, ds['tmax'].isel(time=0), cmap='Spectral_r')

my_features(ax, [-75, -35, -32, 5], '50m')
plt.colorbar(cf, ax=ax)

Vamos incluir nesse mapa o campo de vento a 10 metros...

In [None]:
fig, ax = plt.subplots(figsize=(6,6), subplot_kw={'projection': ccrs.PlateCarree()})

lons, lats = np.meshgrid(ds['lon'], ds['lat'])

cf = ax.contourf(lons, lats, ds['tmax'].isel(time=0), cmap='Spectral_r')
qv = ax.quiver(lons, lats, ds['10u'].isel(time=0), ds['10v'].isel(time=0))

my_features(ax, [-75, -35, -32, 5], '50m')
plt.colorbar(cf, ax=ax)

In [None]:
fig, ax = plt.subplots(figsize=(6,6), subplot_kw={'projection': ccrs.PlateCarree()})

lons, lats = np.meshgrid(ds['lon'], ds['lat'])

skip = 10

cf = ax.contourf(lons, lats, ds['tmax'].isel(time=0), cmap='Spectral_r')
qv = ax.quiver(lons[::skip, ::skip], lats[::skip, ::skip], 
               ds['10u'].isel(time=0)[::skip, ::skip], ds['10v'].isel(time=0)[::skip, ::skip])
ax.quiverkey(qv, X=0.3, Y=1.1, U=10, label='Quiver key, length = 10 m/s', labelpos='E')

my_features(ax, [-75, -35, -32, 5], '50m')
plt.colorbar(cf, ax=ax)

In [None]:
fig, ax = plt.subplots(figsize=(6,6), subplot_kw={'projection': ccrs.PlateCarree()})

lons, lats = np.meshgrid(ds['lon'], ds['lat'])

cf = ax.contourf(lons, lats, ds['tmax'].isel(time=0), cmap='Spectral_r')
ax.streamplot(ds['lon'], ds['lat'], ds['10u'].isel(time=0).values, ds['10v'].isel(time=0).values, color='k')

my_features(ax, [-75, -35, -32, 5], '50m')
plt.colorbar(cf, ax=ax)

In [None]:
fig, ax = plt.subplots(figsize=(6,6), subplot_kw={'projection': ccrs.PlateCarree()})

lons, lats = np.meshgrid(ds['lon'], ds['lat'])

# magnitude
magnitude = np.sqrt(ds['10u'] ** 2. + ds['10v'] ** 2.)

cf = ax.contourf(lons, lats, ds['tmax'].isel(time=0), cmap='Spectral_r')
ax.streamplot(ds['lon'], ds['lat'], ds['10u'].isel(time=0).values, ds['10v'].isel(time=0).values, 
              color=mag.isel(time=0).values, cmap='Greys')

my_features(ax, [-75, -35, -32, 5], '50m')
plt.colorbar(cf, ax=ax)

## Usando xarray e cartopy para fazer plots

In [None]:
ds['tmax'].isel(time=slice(0,6)).plot(x='lon', y='lat', col='time', col_wrap=3)

In [None]:
p = ds['tmax'].isel(time=slice(0,6)).plot(x='lon', y='lat', col='time', col_wrap=3, 
                                          subplot_kws={'projection': ccrs.PlateCarree()}, 
                                          cmap='Spectral')

for ax in p.axes.flat:
    my_features(ax, [-75, -35, -32, 5], '50m')