---
<a name='title'></a>
# **<font color="Navy"> Temas Selectos </font>**
## **<font color="RoyalBlue"> Tema 2 Análisis de datos </font>**
### **<font color="DodgerBlue"> Notebook 3: Xarray </font>**
#### Escuela Nacional de Ciencias de la Tierra
#### Semestre 2024-II

---

## **<font color="ForestGreen">  ¿Por qué Xarray? </font>**


Xarray es una biblioteca de Python poderosa y versátil diseñada para trabajar con arreglos multidimensionales etiquetados y conjuntos de datos. En el contexto de las ciencias de la Tierra, xarray es una herramienta invaluable para manejar datos complejos y multidimensionales, como series temporales, datos espaciales y climáticos.

Algunas de las características clave de xarray que lo hacen especialmente útil en las ciencias de la Tierra son:

- Etiquetado de dimensiones y coordenadas: Xarray permite etiquetar dimensiones y coordenadas, lo que facilita la manipulación y el análisis de datos multidimensionales.

- Integración con formatos de datos comunes: Xarray se integra fácilmente con formatos de datos comunes en las ciencias de la Tierra, como archivos netCDF, lo que facilita la lectura, escritura y manipulación de estos datos.

- Operaciones eficientes en datos multidimensionales: Xarray proporciona una API intuitiva y eficiente para realizar operaciones en datos multidimensionales, lo que es fundamental para el análisis de datos geoespaciales y climáticos.

- Interpolación y re-muestreo: Xarray ofrece funcionalidades avanzadas para la interpolación y re-muestreo de datos, lo que es crucial en aplicaciones como la climatología y la oceanografía.


In [1]:
import xarray as xr
import numpy as np
import pandas as pd

In [2]:

# Crear un conjunto de datos con dimensiones de tiempo y espacio
data = xr.DataArray([[1, 2], [3, 4]], dims=("time", "space"))
print(data)

<xarray.DataArray (time: 2, space: 2)>
array([[1, 2],
       [3, 4]])
Dimensions without coordinates: time, space


En Xarray, una **dimensión** se refiere a una de las dimensiones o ejes a lo largo de los cuales se organiza un conjunto de datos multidimensional. Por ejemplo, en un conjunto de datos climáticos, podríamos tener dimensiones como tiempo, latitud y longitud.

Las dimensiones se definen al crear un conjunto de datos o una variable en Xarray. Veamos un ejemplo de cómo crear un conjunto de datos con dimensiones de tiempo y espacio.

Las **coordenadas** en Xarray son etiquetas asociadas a las dimensiones que proporcionan información sobre los valores en esa dimensión. Por ejemplo, en un conjunto de datos climáticos, las coordenadas de tiempo podrían representar fechas y horas, mientras que las coordenadas de latitud y longitud podrían representar ubicaciones geográficas.

Las coordenadas se definen al crear un conjunto de datos o una variable en Xarray, similar a las dimensiones.

In [3]:
# Definir coordenadas para el conjunto de datos
time_coords = [0, 1]
space_coords = ["A", "B"]
data_with_coords = xr.DataArray([[1, 2], [3, 4]], dims=("time", "space"),
                                coords={"time": time_coords, "space": space_coords})
print(data_with_coords)

<xarray.DataArray (time: 2, space: 2)>
array([[1, 2],
       [3, 4]])
Coordinates:
  * time     (time) int64 0 1
  * space    (space) <U1 'A' 'B'


In [4]:
# Crear una variable con dimensiones y coordenadas
variable = xr.DataArray([[1, 2], [3, 4]], dims=("time", "space"),
                        coords={"time": time_coords, "space": space_coords},
                        name="temperature")
print(variable)

<xarray.DataArray 'temperature' (time: 2, space: 2)>
array([[1, 2],
       [3, 4]])
Coordinates:
  * time     (time) int64 0 1
  * space    (space) <U1 'A' 'B'


Un objeto del tipo `xr.DataArray` en Xarray es una estructura de datos que representa un conjunto de datos multidimensional. Tiene varios atributos importantes que definen su estructura y contenido. Aquí están los principales atributos de un xr.DataArray:

- data: Este atributo contiene los datos subyacentes almacenados en el xr.DataArray, que pueden ser una matriz NumPy u otro tipo de arreglo.

- dims: Este atributo es una tupla que especifica los nombres de las dimensiones del xr.DataArray. Por ejemplo, ("time", "latitude", "longitude").

- coords: Este atributo es un diccionario que contiene las coordenadas asociadas al xr.DataArray. Cada clave en el diccionario representa el nombre de una dimensión y su valor es un arreglo NumPy o un objeto xr.IndexVariable que contiene las etiquetas de coordenadas para esa dimensión.

- attrs: Este atributo es un diccionario que contiene metadatos adicionales o atributos asociados al xr.DataArray. Estos atributos pueden ser información sobre la fuente de los datos, unidades, descripción, etc.

- name: Este atributo es un nombre opcional para el xr.DataArray, que proporciona una etiqueta descriptiva para los datos.

- shape: Este atributo devuelve la forma del arreglo de datos subyacente como una tupla de enteros.

- dtype: Este atributo devuelve el tipo de datos de los elementos en el arreglo subyacente.

Un ejemplo para ilustrar estos atributos:

In [5]:
# Datos de ejemplo con random
data = np.random.rand(3, 40,40)
time_coords = pd.date_range("2024-01-01", periods=3)

# Crear un xr.DataArray
arr = xr.DataArray(data, dims=("time", "latitude", "longitude"),
                   coords={"time": time_coords, "latitude": np.linspace(-90, 90, 40),
                "longitude": np.linspace(-180, 180, 40)},
                   attrs={"units": "mm", "description": "Precipitación diaria"})
print(arr)


<xarray.DataArray (time: 3, latitude: 40, longitude: 40)>
array([[[0.47238906, 0.13906644, 0.70581043, ..., 0.91324497,
         0.3680636 , 0.11317664],
        [0.8628639 , 0.16574894, 0.87866337, ..., 0.65343035,
         0.28832681, 0.42251622],
        [0.77396982, 0.10348545, 0.3816512 , ..., 0.78263792,
         0.0599113 , 0.07608102],
        ...,
        [0.93809485, 0.86597438, 0.85610933, ..., 0.87494536,
         0.17195774, 0.05450094],
        [0.60486266, 0.83994374, 0.75297525, ..., 0.51438412,
         0.53045481, 0.09868856],
        [0.91674209, 0.83957699, 0.45593344, ..., 0.72499986,
         0.13925117, 0.66331279]],

       [[0.96594151, 0.51060134, 0.43665512, ..., 0.38376198,
         0.9069291 , 0.4279493 ],
        [0.83901146, 0.77998201, 0.26048349, ..., 0.7853652 ,
         0.59204568, 0.08136574],
        [0.45855689, 0.64047189, 0.24652281, ..., 0.68874123,
         0.148307  , 0.2615956 ],
...
        [0.9535961 , 0.790424  , 0.09979445, ..., 0.7146086

In [6]:
# Mostrar los atributos
print("Data:\n", arr.data)
print("Dimensions:", arr.dims)
print("Coordinates:", arr.coords)
print("Attributes:", arr.attrs)
print("Name:", arr.name)
print("Shape:", arr.shape)
print("dtype:", arr.dtype)

Data:
 [[[0.47238906 0.13906644 0.70581043 ... 0.91324497 0.3680636  0.11317664]
  [0.8628639  0.16574894 0.87866337 ... 0.65343035 0.28832681 0.42251622]
  [0.77396982 0.10348545 0.3816512  ... 0.78263792 0.0599113  0.07608102]
  ...
  [0.93809485 0.86597438 0.85610933 ... 0.87494536 0.17195774 0.05450094]
  [0.60486266 0.83994374 0.75297525 ... 0.51438412 0.53045481 0.09868856]
  [0.91674209 0.83957699 0.45593344 ... 0.72499986 0.13925117 0.66331279]]

 [[0.96594151 0.51060134 0.43665512 ... 0.38376198 0.9069291  0.4279493 ]
  [0.83901146 0.77998201 0.26048349 ... 0.7853652  0.59204568 0.08136574]
  [0.45855689 0.64047189 0.24652281 ... 0.68874123 0.148307   0.2615956 ]
  ...
  [0.9535961  0.790424   0.09979445 ... 0.71460862 0.64292533 0.59506879]
  [0.28658057 0.33402896 0.47763133 ... 0.9123826  0.32239864 0.27910854]
  [0.83842104 0.74211024 0.6154745  ... 0.33619957 0.9959654  0.43869789]]

 [[0.61096844 0.20767506 0.84037977 ... 0.70251433 0.06071242 0.8163427 ]
  [0.85726992 0

### <font color="ForestGreen"> Slicing </font>

**Slicing** se refiere al proceso de seleccionar un subconjunto de datos a lo largo de una o más dimensiones de un conjunto de datos multidimensional. Es una operación fundamental que permite acceder y trabajar con partes específicas de los datos de manera eficiente.

#### <font color="ForestGreen"> Slicing por Coordenadas </font>

El slicing en Xarray se puede realizar utilizando etiquetas de coordenadas o índices enteros a lo largo de las dimensiones del conjunto de datos. Por ejemplo, si tenemos un conjunto de datos climáticos multidimensionales con dimensiones de tiempo, latitud y longitud, podemos realizar slicing para seleccionar datos para un rango de tiempo específico, una región geográfica particular o un conjunto de valores de una variable específica.ón s

A continuación se muestra un ejemplo utilizando el método `.sel()` que funciona así: https://docs.xarray.dev/en/latest/generated/xarray.DataArray.sel.html.

In [7]:
arr_sliced = arr.sel(latitude=slice(-45, 45))
print(arr_sliced)

<xarray.DataArray (time: 3, latitude: 20, longitude: 40)>
array([[[0.95617481, 0.7172954 , 0.3022265 , ..., 0.39951392,
         0.61565239, 0.53876715],
        [0.35212115, 0.3823248 , 0.69939514, ..., 0.96675054,
         0.01302083, 0.48784561],
        [0.95676651, 0.25857296, 0.1495846 , ..., 0.9445393 ,
         0.50914652, 0.07439851],
        ...,
        [0.70099077, 0.78663543, 0.02245047, ..., 0.1181314 ,
         0.32156118, 0.00950779],
        [0.25623232, 0.95502385, 0.53196963, ..., 0.73898941,
         0.38757302, 0.16848168],
        [0.79700976, 0.52134916, 0.94573268, ..., 0.25974422,
         0.22538789, 0.42071781]],

       [[0.95032188, 0.92585794, 0.12321014, ..., 0.78512918,
         0.06617069, 0.31504762],
        [0.99067666, 0.32754602, 0.82810027, ..., 0.50147502,
         0.53022343, 0.33224871],
        [0.80404427, 0.70094758, 0.08016054, ..., 0.87589249,
         0.9355479 , 0.60853396],
...
        [0.826131  , 0.35633376, 0.25388892, ..., 0.4785096

In [8]:
arr_lon_sliced = arr.sel(longitude=slice(5, 45))
print(arr_lon_sliced)

<xarray.DataArray (time: 3, latitude: 40, longitude: 4)>
array([[[0.71783117, 0.01890906, 0.3136413 , 0.88763387],
        [0.59105292, 0.45744869, 0.40996105, 0.73766987],
        [0.51393697, 0.23104999, 0.24652062, 0.26055295],
        [0.10321976, 0.89338095, 0.25950267, 0.59300834],
        [0.68616157, 0.80073208, 0.48291971, 0.11324346],
        [0.64687076, 0.13896087, 0.13258044, 0.19731339],
        [0.81676876, 0.4936527 , 0.52036778, 0.49578562],
        [0.50016103, 0.7074644 , 0.61183758, 0.13554736],
        [0.17443057, 0.44603501, 0.60438717, 0.62439143],
        [0.41849411, 0.18426003, 0.28798981, 0.91569632],
        [0.03140074, 0.12888219, 0.40798005, 0.49196479],
        [0.22627838, 0.67328695, 0.79821389, 0.41691486],
        [0.86128545, 0.27069106, 0.1238237 , 0.03344977],
        [0.34794033, 0.26277962, 0.36465757, 0.1203051 ],
        [0.40851381, 0.91391237, 0.56467259, 0.26575915],
        [0.11168173, 0.38944076, 0.26172837, 0.64246662],
        [0.6312

In [9]:
arr_time_sliced = arr.sel(time="2024-01-02")
print(arr_time_sliced)

<xarray.DataArray (latitude: 40, longitude: 40)>
array([[0.96594151, 0.51060134, 0.43665512, ..., 0.38376198, 0.9069291 ,
        0.4279493 ],
       [0.83901146, 0.77998201, 0.26048349, ..., 0.7853652 , 0.59204568,
        0.08136574],
       [0.45855689, 0.64047189, 0.24652281, ..., 0.68874123, 0.148307  ,
        0.2615956 ],
       ...,
       [0.9535961 , 0.790424  , 0.09979445, ..., 0.71460862, 0.64292533,
        0.59506879],
       [0.28658057, 0.33402896, 0.47763133, ..., 0.9123826 , 0.32239864,
        0.27910854],
       [0.83842104, 0.74211024, 0.6154745 , ..., 0.33619957, 0.9959654 ,
        0.43869789]])
Coordinates:
    time       datetime64[ns] 2024-01-02
  * latitude   (latitude) float64 -90.0 -85.38 -80.77 ... 80.77 85.38 90.0
  * longitude  (longitude) float64 -180.0 -170.8 -161.5 ... 161.5 170.8 180.0
Attributes:
    units:        mm
    description:  Precipitación diaria


---
<a name='ej-1'></a>
### **<font color="DodgerBlue">Ejercicio 3 - Xarray simple </font>**

<font color="DarkBlue"> 1. Genere un arreglo de xarray que simule ser un arreglo para la variable de temperatura con unidades de K. El arreglo debe tener 3 dimensiones, tiempo, latitud y longitud, así como el arreglo `arr`. Sin embargo, el tiempo debe ser correspondiente a 1 año, comenzando el 1 de enero de 2022 y terminando el 31 de diciembre de 2022. La latitud y longitud deberían ser globales con resolución de 1 grado. 
    
 <font color="DarkBlue"> 2. Haga un slice de su arreglo para la latitud ecuatorial y la longitud de 180 grados E y el 31 de marzo de 2022. 

    
---

#### <font color="ForestGreen"> Slicing por Índices </font>

Además de utilizar etiquetas de coordenadas, también podemos realizar slicing utilizando índices enteros a lo largo de las dimensiones. Esto es útil cuando queremos seleccionar datos basados en la posición en lugar de las etiquetas específicas de las coordenadas.



In [10]:
# Ejemplo de slicing por índices
i_slicing =arr.isel(time=slice(0, 1), latitude=slice(0, 10))
print(i_slicing)

<xarray.DataArray (time: 1, latitude: 10, longitude: 40)>
array([[[4.72389061e-01, 1.39066443e-01, 7.05810428e-01, 2.13984975e-01,
         7.79105819e-01, 7.32694817e-01, 5.29712383e-01, 1.21463585e-01,
         7.85890759e-01, 9.48374504e-01, 4.73877115e-01, 3.76220958e-01,
         5.55125511e-01, 5.96926204e-02, 8.17143129e-01, 8.83121976e-01,
         4.67594859e-01, 6.72475382e-01, 9.62824916e-01, 5.34573281e-01,
         8.00764211e-01, 7.17831171e-01, 1.89090605e-02, 3.13641296e-01,
         8.87633868e-01, 5.30688689e-01, 2.53717716e-01, 2.45259736e-01,
         2.48170365e-02, 3.83252168e-01, 4.41128081e-01, 3.04868778e-01,
         3.91790642e-01, 3.84571381e-01, 4.99017400e-01, 4.61666498e-01,
         8.04377502e-01, 9.13244966e-01, 3.68063600e-01, 1.13176641e-01],
        [8.62863901e-01, 1.65748944e-01, 8.78663369e-01, 8.14333096e-01,
         1.17118645e-01, 8.40810441e-01, 8.03473203e-01, 2.34244812e-01,
         6.71706651e-01, 8.67987906e-02, 6.56891423e-01, 4.494933

### <font color="ForestGreen"> Operaciones sobre las coordenadas </font>

Para hacer operaciones sobre algunas coordenadas particulares, realizar operaciones como mean, min y max a lo largo de coordenadas o dimensiones en Xarray es una técnica poderosa que proporciona una manera eficiente y flexible de resumir, analizar y visualizar datos multidimensionales, lo que facilita el proceso de extracción de información y la toma de decisiones en proyectos científicos y de análisis de datos.

Realizar operaciones como mean (media), min (mínimo) y max (máximo) a lo largo de coordenadas o dimensiones en Xarray ofrece varias ventajas:

1. Reducción de Dimensionalidad: Estas operaciones permiten reducir la dimensionalidad de los datos, lo que puede ser útil para resumir grandes conjuntos de datos y extraer información relevante. Por ejemplo, calcular la media a lo largo de la dimensión de tiempo puede proporcionar una visión general de la tendencia temporal de los datos.

2. Agilidad en el Análisis: Al realizar operaciones a lo largo de coordenadas o dimensiones, Xarray aprovecha la paralelización y la optimización interna para calcular eficientemente los resultados, lo que acelera el proceso de análisis y permite trabajar con conjuntos de datos de gran tamaño de manera rápida y eficiente.

3. Flexibilidad en la Seleccion: Estas operaciones pueden aplicarse selectivamente a dimensiones específicas o coordenadas de interés, lo que permite realizar análisis detallados en subconjuntos específicos de datos sin necesidad de procesar el conjunto de datos completo.

4. Interpretación Intuitiva: Los resultados de estas operaciones a lo largo de coordenadas o dimensiones son fáciles de interpretar y comunicar, ya que proporcionan estadísticas resumidas que describen características importantes de los datos, como el valor medio, el mínimo y el máximo.

In [11]:
promedio_temporal=arr.mean('time')#
print(promedio_temporal)

<xarray.DataArray (latitude: 40, longitude: 40)>
array([[0.68309967, 0.28578095, 0.66094844, ..., 0.66650709, 0.44523504,
        0.45248955],
       [0.85304842, 0.53157424, 0.59734549, ..., 0.56275396, 0.49256324,
        0.28582591],
       [0.47398785, 0.450873  , 0.24215781, ..., 0.59846769, 0.28831501,
        0.40087298],
       ...,
       [0.78358644, 0.75960031, 0.47999177, ..., 0.63549951, 0.37490186,
        0.30848885],
       [0.60975459, 0.54460248, 0.52905714, ..., 0.73233347, 0.41561956,
        0.15497622],
       [0.8672595 , 0.70625493, 0.39158669, ..., 0.6277758 , 0.66259419,
        0.53381104]])
Coordinates:
  * latitude   (latitude) float64 -90.0 -85.38 -80.77 ... 80.77 85.38 90.0
  * longitude  (longitude) float64 -180.0 -170.8 -161.5 ... 161.5 170.8 180.0


In [12]:
promedio_espacial=arr.mean(['latitude','longitude'])#
print(promedio_espacial)

<xarray.DataArray (time: 3)>
array([0.50182495, 0.50577771, 0.49447109])
Coordinates:
  * time     (time) datetime64[ns] 2024-01-01 2024-01-02 2024-01-03


---
<a name='ej-1'></a>
### **<font color="DodgerBlue">Ejercicio 4 - Xarray avanzado </font>**

<font color="DarkBlue"> 1. A partir del arreglo de temperatura del ejercicio anterior `Tarr`, grafique las series de tiempo como resultado del promedio longitudinal para las latitudes tropicales, definidas como aquellas latitudes hacia el ecuador de 10$^\circ$. 
    
 <font color="DarkBlue"> 2. Grafique el promedio latitudinal de temperatura para todos los tiempos. Es decir, del arreglo `arr`, calcule el promedio sobre todos los tiempo y latitudes para graficar la temperatura como función de la longitud.

    
---