# Xarray

`xarray` (antigamente conhecido como xray) é um pacote Python que faz trabalhar com arrays multi-dimensionais simples, efficente e divertido!

Arrays multi-dimensionais são uma parte essencial em computação científica. Eles são encontrados em uma grande variedade de áreas como física, astronômia, geociências, e etc. No Python, NumPy proporciona a estrutura fundamental para trabalhar com arrays multi-dimensionais. No entanto, geralmente os conjuntos de dados são mais do que números puros; eles possuem nomes (labels) que encorporam como o array é mapeado no espaço, tempo, etc.

Introduzindo dimensões, coordenadas e atributos em cima de arrays NumPy, xarray é capaz de entender esses labels e usa-lo para proporcionar uma experiência mais intuitiva, concisa e menos proícia para erros. Xarray também proporciona uma variedade de funções para análise de dados e visualização. Xarray foi inspirado e usa muito do que foi desenvolvido para o pandas. Xarray pode ler e escrever dados dos formatos mais comuns e é particularmente feito para funcionar bem com arquivos netCDF.

In [4]:
import numpy as np
import pandas as pd
import xarray as xr

import matplotlib.pyplot as plt
%matplotlib inline

## Estrutura Básica

`xarray.DataArray` possue as seguintes propriedades:
- `values`: Um numpy.ndarray com os valores do array
- `dims`: Nome das dimensões para cada eixo (e.g., ('x', 'y', 'z'))
- `coords`: Um dicionário com as coordenadas para cada eixo (e.g., Array unidimensional, objeto tipo datetime ou strings)
- `attrs`: Dicionário para os metadados arbitrários.

In [5]:
data = np.random.rand(4, 3)

data

array([[0.97291296, 0.27082253, 0.60137037],
       [0.17137246, 0.01354465, 0.74579837],
       [0.18750216, 0.57824891, 0.73751957],
       [0.80271047, 0.38039223, 0.44806883]])

In [18]:
locs = ['IA', 'IL', 'IN']

times = pd.date_range('2000-01-01', periods=4)

foo = xr.DataArray(data, coords=[times, locs], dims=['time', 'space'])

foo

<xarray.DataArray (time: 4, space: 3)>
array([[0.972913, 0.270823, 0.60137 ],
       [0.171372, 0.013545, 0.745798],
       [0.187502, 0.578249, 0.73752 ],
       [0.80271 , 0.380392, 0.448069]])
Coordinates:
  * time     (time) datetime64[ns] 2000-01-01 2000-01-02 2000-01-03 2000-01-04
  * space    (space) |S2 'IA' 'IL' 'IN'

Também pode ser criado da seguinte maneira:

In [19]:
xr.DataArray(data, coords=[('time', times), ('space', locs)])

<xarray.DataArray (time: 4, space: 3)>
array([[0.972913, 0.270823, 0.60137 ],
       [0.171372, 0.013545, 0.745798],
       [0.187502, 0.578249, 0.73752 ],
       [0.80271 , 0.380392, 0.448069]])
Coordinates:
  * time     (time) datetime64[ns] 2000-01-01 2000-01-02 2000-01-03 2000-01-04
  * space    (space) |S2 'IA' 'IL' 'IN'

In [20]:
foo.values

array([[0.97291296, 0.27082253, 0.60137037],
       [0.17137246, 0.01354465, 0.74579837],
       [0.18750216, 0.57824891, 0.73751957],
       [0.80271047, 0.38039223, 0.44806883]])

In [21]:
foo.dims

('time', 'space')

In [22]:
foo.coords

Coordinates:
  * time     (time) datetime64[ns] 2000-01-01 2000-01-02 2000-01-03 2000-01-04
  * space    (space) |S2 'IA' 'IL' 'IN'

In [23]:
foo.attrs

OrderedDict()

In [24]:
foo.name = 'foo'

foo.attrs = {'created_by': 'Batman'}

In [25]:
foo

<xarray.DataArray 'foo' (time: 4, space: 3)>
array([[0.972913, 0.270823, 0.60137 ],
       [0.171372, 0.013545, 0.745798],
       [0.187502, 0.578249, 0.73752 ],
       [0.80271 , 0.380392, 0.448069]])
Coordinates:
  * time     (time) datetime64[ns] 2000-01-01 2000-01-02 2000-01-03 2000-01-04
  * space    (space) |S2 'IA' 'IL' 'IN'
Attributes:
    created_by:  Batman

`xarray.Dataset` é o equivalente do pandas DataFrame. Possui as seguintes propriedades:

- `dims`: Um dicionário mapeando as coordenadas e o tamanho de cada coordenada (e.g., {'x': 6, 'y': 6, 'time': 8})
- `data_vars`: Um dicionário com variáveis em DataArrays
- `coords`: Um dicionário com as coordenadas para cada eixo (e.g., Array unidimensional, objeto tipo datetime ou strings)
- `attrs`: Dicionário para os metadados arbitrários.

![logo](http://xarray.pydata.org/en/stable/_images/dataset-diagram.png)

In [31]:
temp = 15 + 8 * np.random.randn(2, 2, 3)

precip = 10 * np.random.rand(2, 2, 3)

lon = [[-99.83, -99.32], [-99.79, -99.23]]

lat = [[42.25, 42.21], [42.63, 42.59]]

ds = xr.Dataset({'temperature': (['x', 'y', 'time'],  temp),
                 'precipitation': (['x', 'y', 'time'], precip)},
                 coords={'lon': (['x', 'y'], lon),
                         'lat': (['x', 'y'], lat),
                         'time': pd.date_range('2014-09-06', periods=3)})

ds

<xarray.Dataset>
Dimensions:        (time: 3, x: 2, y: 2)
Coordinates:
    lat            (x, y) float64 42.25 42.21 42.63 42.59
    lon            (x, y) float64 -99.83 -99.32 -99.79 -99.23
  * time           (time) datetime64[ns] 2014-09-06 2014-09-07 2014-09-08
Dimensions without coordinates: x, y
Data variables:
    precipitation  (x, y, time) float64 1.237 7.113 6.219 0.9706 0.454 8.65 ...
    temperature    (x, y, time) float64 3.798 34.16 3.082 11.81 15.36 14.59 ...

In [32]:
xr.Dataset({'bar': foo})

<xarray.Dataset>
Dimensions:  (space: 3, time: 4)
Coordinates:
  * time     (time) datetime64[ns] 2000-01-01 2000-01-02 2000-01-03 2000-01-04
  * space    (space) |S2 'IA' 'IL' 'IN'
Data variables:
    bar      (time, space) float64 0.9729 0.2708 0.6014 0.1714 0.01354 ...

In [33]:
ds['temperature']

<xarray.DataArray 'temperature' (x: 2, y: 2, time: 3)>
array([[[ 3.798121, 34.155227,  3.082153],
        [11.806305, 15.360989, 14.591938]],

       [[19.976821, 31.92528 , 25.196079],
        [18.497746, 14.410664, 12.797386]]])
Coordinates:
    lat      (x, y) float64 42.25 42.21 42.63 42.59
    lon      (x, y) float64 -99.83 -99.32 -99.79 -99.23
  * time     (time) datetime64[ns] 2014-09-06 2014-09-07 2014-09-08
Dimensions without coordinates: x, y

In [34]:
ds.data_vars

Data variables:
    precipitation  (x, y, time) float64 1.237 7.113 6.219 0.9706 0.454 8.65 ...
    temperature    (x, y, time) float64 3.798 34.16 3.082 11.81 15.36 14.59 ...

## Trabalhando com um netCDF

Vamos abrir agora um arquivo netCDF de exemplo para mostrar como tirar proveito das facilidades do `xarray`.

In [35]:
ds = xr.open_dataset('data/xarray_teste.nc')

ds

<xarray.Dataset>
Dimensions:  (lat: 165, lon: 161, time: 92)
Coordinates:
  * time     (time) datetime64[ns] 2018-12-27T21:00:00 2018-12-28 ...
  * lat      (lat) float64 -35.0 -34.75 -34.5 -34.25 -34.0 -33.75 -33.5 ...
  * lon      (lon) float64 -75.0 -74.75 -74.5 -74.25 -74.0 -73.75 -73.5 ...
Data variables:
    prec     (time, lat, lon) float64 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ...
    tmax     (time, lat, lon) float64 289.4 289.3 289.3 289.3 289.2 289.2 ...
    tmin     (time, lat, lon) float64 289.2 289.2 289.3 289.2 289.2 289.2 ...
    10u      (time, lat, lon) float64 2.438 2.748 2.998 3.248 3.658 4.308 ...
    10v      (time, lat, lon) float64 9.484 9.574 9.624 9.734 9.954 10.12 ...

In [38]:
ds.time

<xarray.DataArray 'time' (time: 92)>
array(['2018-12-27T21:00:00.000000000', '2018-12-28T00:00:00.000000000',
       '2018-12-28T03:00:00.000000000', '2018-12-28T06:00:00.000000000',
       '2018-12-28T09:00:00.000000000', '2018-12-28T12:00:00.000000000',
       '2018-12-28T15:00:00.000000000', '2018-12-28T18:00:00.000000000',
       '2018-12-28T21:00:00.000000000', '2018-12-29T00:00:00.000000000',
       '2018-12-29T03:00:00.000000000', '2018-12-29T06:00:00.000000000',
       '2018-12-29T09:00:00.000000000', '2018-12-29T12:00:00.000000000',
       '2018-12-29T15:00:00.000000000', '2018-12-29T18:00:00.000000000',
       '2018-12-29T21:00:00.000000000', '2018-12-30T00:00:00.000000000',
       '2018-12-30T03:00:00.000000000', '2018-12-30T06:00:00.000000000',
       '2018-12-30T09:00:00.000000000', '2018-12-30T12:00:00.000000000',
       '2018-12-30T15:00:00.000000000', '2018-12-30T18:00:00.000000000',
       '2018-12-30T21:00:00.000000000', '2018-12-31T00:00:00.000000000',
       '2018-1

In [45]:
ds.sel(time=slice('2019-01-01', '2019-01-05'))

<xarray.Dataset>
Dimensions:  (lat: 165, lon: 161, time: 40)
Coordinates:
  * time     (time) datetime64[ns] 2019-01-01 2019-01-01T03:00:00 ...
  * lat      (lat) float64 -35.0 -34.75 -34.5 -34.25 -34.0 -33.75 -33.5 ...
  * lon      (lon) float64 -75.0 -74.75 -74.5 -74.25 -74.0 -73.75 -73.5 ...
Data variables:
    prec     (time, lat, lon) float64 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ...
    tmax     (time, lat, lon) float64 290.0 290.0 290.0 290.0 290.0 290.0 ...
    tmin     (time, lat, lon) float64 289.9 289.9 289.9 289.9 289.9 289.8 ...
    10u      (time, lat, lon) float64 2.99 3.13 3.29 3.44 3.59 3.72 3.71 ...
    10v      (time, lat, lon) float64 7.711 8.161 8.651 9.221 9.771 10.1 ...

In [46]:
ds.isel(time=0)

<xarray.Dataset>
Dimensions:  (lat: 165, lon: 161)
Coordinates:
    time     datetime64[ns] 2018-12-27T21:00:00
  * lat      (lat) float64 -35.0 -34.75 -34.5 -34.25 -34.0 -33.75 -33.5 ...
  * lon      (lon) float64 -75.0 -74.75 -74.5 -74.25 -74.0 -73.75 -73.5 ...
Data variables:
    prec     (lat, lon) float64 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 0.0 ...
    tmax     (lat, lon) float64 289.4 289.3 289.3 289.3 289.2 289.2 289.4 ...
    tmin     (lat, lon) float64 289.2 289.2 289.3 289.2 289.2 289.2 289.3 ...
    10u      (lat, lon) float64 2.438 2.748 2.998 3.248 3.658 4.308 4.878 ...
    10v      (lat, lon) float64 9.484 9.574 9.624 9.734 9.954 10.12 10.05 ...

In [49]:
ds.sel(lat=-23.6821604, lon=-46.8755003) # São Paulo

KeyError: -23.6821604

In [50]:
ds.sel(lat=-23.6821604, lon=-46.8755003, method='nearest')

<xarray.Dataset>
Dimensions:  (time: 92)
Coordinates:
  * time     (time) datetime64[ns] 2018-12-27T21:00:00 2018-12-28 ...
    lat      float64 -23.75
    lon      float64 -47.0
Data variables:
    prec     (time) float64 1.272e-14 1.272e-14 0.0 0.0 0.0 0.0 0.4375 5.375 ...
    tmax     (time) float64 296.4 296.4 290.7 290.7 290.0 297.8 300.0 300.8 ...
    tmin     (time) float64 293.9 290.6 289.6 289.4 289.3 289.3 296.7 296.7 ...
    10u      (time) float64 -2.162 -1.668 -1.295 -1.02 -0.7769 -0.5604 ...
    10v      (time) float64 2.564 1.319 0.4281 -0.1145 0.05091 -1.107 1.058 ...

<div class="alert alert-block alert-success">
<b>Em que situação isso pode ser usado?</b> Para filtrar seus dados apenas na área ou no tempo que você quer para fazer uma análise ou comparação. O último caso, por exemplo, pode ser usado para selecionar o ponto de grade do modelo mais próximo de uma dada estação para comparação.
</div>