# Introducció a xarray: etiqueta les teves dades n-dimensionals

## Què és xarray?

En dues paraules: _pandas multidimensional_

## Estructures de dades de xarray

* **DataArray**: Col·lecció homogènia de dades amb dimensions i coordenades.
* **Dataset**: Col·lecció de DataArrays potencialment relacionats

## Dades exemple pel tutorial

Resultats d'un model Bayesià del campionat de rugby de les sis nacions.

* El model té multiples variables, amb diferents formes
* Les diferents variables poden tenir tipus de dades diferents
* Les dimensions tenen noms i etiquetes. De fet una de les dimensions té multiples variants per etiquetar-la

In [1]:
import numpy as np
import xarray as xr

xr.set_options(display_expand_data=False)

<xarray.core.options.set_options at 0x7dbb004bb590>

In [2]:
ds = xr.open_dataset("rugby_posterior.nc")

In [3]:
ds

## Terminologia en xarray

* Dimensió
* Coordenada
* Variable
* Index

## Per què utilitzar xarray?

xarray no preten substituir les dades tabulars sinó que té com a objectiu oferir un flux de treball similar a aquells usuaris que tenen dades que no encaixen en el format tabular.

### No cal forçar dades que no encaixen en format tabular

In [4]:
ds.nbytes / 1e6

1.636

In [5]:
ds.to_dataframe().info()

<class 'pandas.core.frame.DataFrame'>
MultiIndex: 1440000 entries, (np.int32(0), 'Wales Italy', 'Wales', np.int32(0), 'home') to (np.int32(499), 'Ireland England', 'England', np.int32(3), 'away')
Data columns (total 15 columns):
 #   Column        Non-Null Count    Dtype  
---  ------        --------------    -----  
 0   home_team     1440000 non-null  object 
 1   away_team     1440000 non-null  object 
 2   year          1440000 non-null  int32  
 3   match_id      1440000 non-null  int32  
 4   home_points   1440000 non-null  int32  
 5   away_points   1440000 non-null  int32  
 6   atts_team     1440000 non-null  float64
 7   defs_team     1440000 non-null  float64
 8   atts          1440000 non-null  float64
 9   defs          1440000 non-null  float64
 10  intercept     1440000 non-null  float64
 11  sd_att        1440000 non-null  float64
 12  sd_def        1440000 non-null  float64
 13  sd_att_field  1440000 non-null  float64
 14  sd_def_field  1440000 non-null  float64
dtypes

### Podem treure avantatge de les metadades en cas de tenir-ne

In [6]:
a = np.ones((2, 29, 3))
b = np.arange(29)

a + b

ValueError: operands could not be broadcast together with shapes (2,29,3) (29,) 

## Alineació i _broadcasting_ automàtics

In [7]:
a = xr.DataArray(a, dims=["batch1", "dim", "batch2"])
b = xr.DataArray(b, dims=["dim"])

a + b

In [8]:
ds["sd_att"] + ds["atts"]

In [9]:
ds["home_points"] - ds["defs"]

## Indicar operacions a partir dels noms de les dimensions

In [10]:
ds.mean(["chain", "draw"])

In [11]:
ds.mean(["chain", "draw", "field"])

## Indexar amb etiquetes

In [12]:
ds.sel(chain=[0, 2], draw=1, team="Italy")

In [13]:
ds.isel(team=[4, 5])

## El mètode query extès a multiples dimensions

In [14]:
ds.query(match="year <= 2016", team="team in ('England', 'Ireland')")

## Creació d'indexs explícits

In [15]:
ds.sel(year=2016)

KeyError: "no index found for coordinate 'year'"

In [16]:
ds.set_xindex("year").sel(year=2016)

## Modes exterior i vectoritzat a l'hora d'indexar

![outer vs vectorized indexing](https://oriolabrilpla.cat/en/_images/indexing_modes.png)

In [17]:
da = ds["sd_att"]
da

In [18]:
da.sel(chain=[0, 2, 1], draw=[1, 0, 2])

In [19]:
chains = xr.DataArray([0, 2, 1], dims=["pointwise_sel"])
draws = xr.DataArray([1, 0, 2], dims=["pointwise_sel"])
da.sel(chain=chains, draw=draws)

## Operacions "groupby"

In [20]:
ds[["home_points", "away_points"]].groupby(("year", "home_team"))

<DatasetGroupBy, grouped over 2 grouper(s), 24 groups in total:
    'year': 4/4 groups present with labels 2014, 2015, 2016, 2017
    'home_team': 6/6 groups present with labels 'England', 'France', ..., 'Wales'>

In [21]:
ds[["home_points", "away_points"]].groupby(("year", "home_team")).mean()

In [22]:
gby = ds[["home_points", "away_points"]].groupby(("year", "home_team"))
gby.mean(["chain", "draw", "match"])

## Utilitzar funcions tipus `ufunc` arbitràries

In [23]:
from scipy.stats import rankdata

In [24]:
rankdata(ds["sd_att"], axis=0)

array([[2., 2., 2., ..., 3., 4., 3.],
       [1., 4., 3., ..., 1., 1., 1.],
       [4., 3., 1., ..., 2., 3., 2.],
       [3., 1., 4., ..., 4., 2., 4.]])

In [25]:
xr.apply_ufunc(
    rankdata,
    ds["sd_att"],
    input_core_dims=[["chain"]],
    output_core_dims=[["chain"]],
    kwargs={"axis": -1},
)

In [26]:
xr.apply_ufunc(
    np.mean,
    ds["sd_att"],
    input_core_dims=[["chain"]],
    output_core_dims=[[]],
    kwargs={"axis": -1},
)

## Dictionary interface

In [27]:
ds_as_dict = {
    var_name: da.to_numpy()
    for var_name, da in ds.items()
}
# ds_as_dict  # ara és un diccionari de numpy arrays

## Quina és la probabilitat de cada equip de guanyar el campionat?

Puntuació al torneig de les sis nacions:

* Una victòria representa 4 punts
* Un empat representa 2 punts
* Una derrota per 7 o menys punts representa 1 punt
* Una derrota per més de 7 punts representa 0 punts

Passos recomanats:

1. Calcular els punts que aconsequeix cada equip com a suma dels punts que aconsegueis com a amfitrió i com a visitant
2. Utilitzar `rankdata` de SciPy per calcular per a cada mostra quin seria el ranking de cada equip
3. Calcular les probabilitats de cada posició, per exemple amb `numpy.histogram`. Com que l'histograma de NumPy no permet vectoritzar,
   comenceu primer fent aquest últim pas amb un sol equip, després introduirem una de les llibreries que exten xarray i que té una funció histograma
   vectoritzada y 100% compatible amb xarray