# 2.4 Matrices de datos

Esta lección presenta las matrices

Esta sección introduce:
- Nivel 1: **Numpy** paquete que proporciona herramientas fundamentales de python para arrays de datos
- Nivel 2: **Xarrays** matrices N-dimensionales
- Nivel 3: **Pytorch Tensor**, arrays N-dimensionales para pytorch.

En todos los niveles, practicaremos
- **Matplotlib** paquete de python que proporciona funcionalidades básicas para graficar.



## 1 Matrices Numpy

Las secuencias de datos se pueden almacenar en *listas* de python. Las listas son muy flexibles; datos de idéntico tipo pueden ser añadidos a la lista sobre la marcha.

Los arrays Numpy son objetos multidimensionales de tipos de datos específicos (flotantes, cadenas, enteros, ...). ¡! Las matrices Numpy deben declararse en primer lugar. Asignar la memoria de los datos con antelación puede ahorrar tiempo de cálculo. Las matrices Numpy soportan operaciones aritméticas.
Existen numerosos tutoriales para obtener ayuda.
https://www.earthdatascience.org/courses/intro-to-earth-data-science/scientific-data-structures-python/numpy-arrays/

In [None]:
# importar módulo
import numpy as np

# define un array de dimensión uno de.
#esta es una lista de flotantes:
a=[0.7 , 0.75, 1.85]
#convierte una lista en un array numpy
a_nparray = np.array(a)

### 1.1 Matrices 1D en Numpy
Las matrices 1-D también se llaman ``vectores``. La función ``arange`` de Numpy creará valores espaciados regularmente dentro de un rango específico. Es similar a la función ``range`` de python.


In [None]:
# crear matrices 1D
N=100
x_int = np.arange(N)# esto hará un vector de enteros de 0 a N-1
print(x_int)

In [None]:
N = 100 # número de puntos

# vectores linealmente espaciados
x_lat = np.linspace(39,50,N)# esto hará un vector de flotantes de min a max valores espaciados uniformemente
x_lon = np.linspace(-128,-125,N)# lo mismo para la longitud
print(x_lat)
print(x_lon)


# vectores de tiempo
x_t = np.linspace(0,100,N)
dt=x_t[1]
print(dt)

# vectores logarítmicos
# 10^(-1) -> 10^(1) => 0.1 - 1
x_tl = np.logspace(-1,1,N)

print(x_tl)


### Indexación de matrices Numpy

El acceso a elementos individuales se realiza mediante corchetes ``[]``. El primer elemento se indexa en ``0``, el último elemento se indexa en ``-1``.


In [None]:
arr = np.arange(5)

# Accede al primer elemento (índice 0)
elemento = arr[0]
print(elemento) # Salida: 1

# Accede al cuarto elemento (índice 3)
elemento = arr[3]
print(elemento) # Salida: 4


# Accede al último elemento (índice 5)
elemento = arr[4]
print(elemento) # Salida: 5

# Accede al último elemento (índice 5)
elemento = arr[-1]
print(elemento) # Salida: 5


## Rebanado

Podemos cortar matrices utilizando la sintaxis básica ``start:stop:step``:

In [None]:
x=np.arange(10)

# selecciona las submatrices entre los índices 3 y 6
x1 = x[2:5]
print(x1)

Crear una matriz que seleccione cada dos elementos

In [None]:
# Respuesta aquí

Crea una matriz con índices ordenados inversamente:

In [None]:
# Respuesta aquí

### 1.2 Introducción a Matplotlib

**Some tips from Sofware-Carpentry**

- Make sure your text is **large** enough to read. Use el parámtro fontsize en  <code>xlabel</code>, <code> ylabel</code>, <code>title</code>, y <code>legend</code>, y <code>tick_params</code> with labelsize to increase the text size of the numbers on your axes.

- Del mismo modo, debe hacer que los elementos de su gráfico sean fáciles de ver. Utilice ``s`` para aumentar el tamaño de los marcadores de dispersión y el ancho de línea para aumentar el tamaño de las líneas del gráfico.

- El uso del color (y nada más) para distinguir entre los diferentes elementos de la trama hará que sus tramas sean ilegibles para cualquier persona daltónica o que tenga una impresora de oficina en blanco y negro. Para las líneas, el parámetro estilo de línea le permite utilizar diferentes tipos de líneas. Para los gráficos de dispersión, el marcador permite cambiar la forma de los puntos. Si no está seguro de los colores, puede utilizar Coblis o Color Oracle para simular el aspecto que tendrían sus gráficos para las personas daltónicas.

In [None]:
# hacer que los gráficos aparezcan en el cuaderno
%matplotlib inline
import matplotlib.pyplot as plt
# import matplotlib.pylab as pylab

# establecer parámetros por defecto
params = {'legend.fontsize': 14, \
          'xtick.labelsize':14, \
          'ytick.labelsize':14, \
          'font.size':14}
plt.rcParams.update(params)

In [None]:
fig, (ax1,ax2) = plt.subplots(1,2, figsize=(10,5))  # 1 fila, 2 columna
ax1.plot(x_t,'.')
ax2.plot(x_tl,'r.');ax2.set_yscale('log')
ax2.set_xlabel('Indice del vector')
ax1.set_xlabel('Indice del vector')
ax2.set_ylabel('Tiempo (s)')
ax1.set_ylabel('Tiempo (s)')
ax1.set_title('Mi primer gráfico!')
ax2.set_title('Mi segundo gráfico!')
ax1.grid(True)
ax2.grid(True)
plt.savefig('plot_test.png')

### 1.3 Matrices aleatorias

Crear matrices sintéticas a partir de distribuciones estadísticas de datos.

Encontrar alguna función básica de las funciones estadísticas en Numpy:
https://numpy.org/doc/stable/reference/routines.statistics.html

In [None]:
# generar campos aleatorios
from numpy import random

N=10000 # número de muestras
# distribución uniforme
x1=2*random.rand(N)-1 # distribución uniforme centrada en 0, variando entre -1 y 2.
# distribución gaussiana
x2=random.randn(N) # distribución Gaussiana con una desviación estándar de 1
# Ley de potencia
a=2 # potencia de la distribución
x3=random.power(a,N)
# poisson
aa=4
x4=random.poisson(aa,N)

In [None]:
# compare ahora esta distribución con la distribución Gaussiana
fig1, (ax1,ax2,ax3,ax4) = plt.subplots(1,4, figsize=(15,5))  # 1 fila, 2 columnas
ax1.plot(x1);ax1.set_title('Uniforme')
ax2.plot(x2);ax2.set_title('Gaussiana')
ax3.plot(x3);ax3.set_title('Potencia')
ax4.plot(x4);ax4.set_title('Poisson')


# Gráfico los 2 histogramas
fig2, (ax11,ax12,ax13,ax14) = plt.subplots(1,4, figsize=(15,5))  # 1 fila, 2 columnas
ax11.hist(x1,bins=100);ax11.set_title('Uniforme')
ax12.hist(x2,bins=100);ax12.set_title('Gaussiana')
ax13.hist(x3,bins=100);ax13.set_title('Potencia')
ax14.hist(x4,bins=100);ax14.set_title('Poisson')

In [None]:
# numpy tiene funciones incorporadas para calcular propiedades estadísticas básicas de matrices numpy
print("media de x1", "desviación estándar de x1", "media de x2", "desviación estándar de x2",)
print(np.mean(x1),np.std(x1),np.mean(x2),np.std(x2))

### 1.4 2D matrices en Numpy

Ahora crearemos matrices 2D aleatorias

In [None]:
N=1000 # número de muestras
# crear
# distribución uniforme
x1=2*random.rand(N,N)-1 # distribución uniforme centrada en 0, variando entre -1 y 2.
# distribución gaussiana
x2=random.randn(N,N) # distribución gaussiana con una desviación estándar de 1
# ley de potencia
a=2 # potencia de la distribución
x3=random.power(a,[N,N])
# poisson
aa=4
x4=random.poisson(aa,[N,N])

# ahora compara esta distribución con la distribución Gaussiana
fig, (ax1,ax2,ax3,ax4) = plt.subplots(1,4, figsize=(26,4))  # 1 fila, 2 columnas
ax1.pcolor(x1,vmin=-1, vmax=1)
ax2.pcolor(x2,vmin=-1, vmax=1)
ax3.pcolor(x3,vmin=-1, vmax=1)
ax4.pcolor(x4,vmin=0, vmax=10)

### 1.5 Normas de las matrices

$L_2$ norma de una matriz $X$:

$||X||_2 = \sqrt{\sum_i^N \left(X_i^2\right) / N} $
En numpy es la norma por defecto del módulo de álgebra lineal linalg: <code> np.linalg.norm(X) </code>

Podemos normalizar una matriz y nos centraremos en qué dimensión se normaliza la matriz.

### 1.6 Medidas de distancia
Comparar datos a menudo significa calcular una distancia o disimilitud entre los dos datos. La similitud equivale a la proximidad de dos datos.

**Distancia Euclidiana**

$L_2$ norma del residuo entre 2 vectores:

$d = ||X -Y||_2 = \sqrt{\sum_i^N \left(X_i^2 - Y_i^2 \right) / N} $
En numpy es la norma por defecto del módulo de álgebra lineal linalg: <code> d=np.linalg.norm(X-Y) </code>

**Distancia de variación total**

Es la $L_1$-norma equivalente a la distancia euclidiana:  <code> d=np.linalg.norm(X-Y,ord=1) </code>


**Coeficiente de Pearson (también conocido como coeficiente de correlación)**

$ P(X,Y) = \frac{cov(X,Y)}{std(X)std(Y)} $

$ P(X,Y) = \frac{  \sum{ (X_i-mean(X)) (Y_i-mean(Y)}}{\sqrt{\sum{ (X_i-mean(X))^2 } \sum{ (Y_i-mean(Y))^2 } }} $

In [None]:
# correlación cruzada 2 vectores:

x2=random.randn(N) # Distribución gaussiana 
x3=random.randn(N) # Distribución gaussiana 

# Distancia euclidiana:
d2=np.linalg.norm(x3-x2)
# Distancia de variación total:
d1=np.linalg.norm(x3-x2,ord=1)
# Coeficiente de Pearson
r = np.corrcoef(x2,x3)[0,1]

print("las tres distancias son:")
print(d2,d1,r)

plt.plot(x2,x3,'o');plt.grid(True)
plt.xlabel('X2');plt.ylabel('X3')


# 2 Xarrays

## 1.1  fundamentos Xarray

Este tutorial ha sido copiado y modificado de los tutoriales del paquete Xarray.

Los datos geocientíficos vienen acompañados de complejos metadatos que describen el significado y el contexto de las matrices de datos. Xarrays permite adjuntar metadatos a las matrices de datos, facilitando el seguimiento de las variables, sus unidades, sistemas de coordenadas y otros atributos importantes de los datos. Dado que los datos geocientíficos suelen ser multidimensionales, la integración de dimensiones como el tiempo y las coordenadas espaciales permite a los usuarios manipular, transformar y realizar operaciones complejas con las matrices de datos.

Los Xarrays están bien integrados con la computación de alto rendimiento, como Dask, y el almacenamiento, como el almacenamiento HPC mediante ``NetCDF`` y el almacenamiento en la nube con ``Zarr``.

Xarrays se diseñó para facilitar la manipulación de datos geocientíficos.


Los Xarrays son matrices multidimensionales ("tensores") que pueden tener varios atributos y dimensiones. La estructura principal es ``DataArray``, la matriz de N dimensiones que es similar a un ``pandas.Series``. La segunda es ``Dataset``, una base de datos multidimensional en memoria. Es un diccionario como contenedor de ``DataArray``, el equivalente a ``pandas.DataFrame``.

Xarrrays se puede leer desde netCDF y desde Zarr.

Encontrará muchos tutoriales útiles del proyecto Xarray, como por ejemplo [Este](https://docs.xarray.dev/en/stable/getting-started-guide/quick-overview.html). 

[Aquí](https://tutorial.xarray.dev/fundamentals/01_datastructures.html) es el libro tutorial de Xarray que introduzca Xarray desde la estructura de datos hasta la visualización. En general, Xarray envuelve Numpy y Pandas y se comporta de manera similar a Pandas. La transición para adoptar Xarray debería ser suave si ya estás familiarizado con Numpy y Pandas.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import xarray as xr
import pooch

%matplotlib inline
%config InlineBackend.figure_format='retina'

In [None]:
ds = xr.tutorial.load_dataset("air_temperature")
ds

¿Cuáles son las claves/atributos del conjunto de datos?

Encuentra dos formas de imprimir los valores del atributo ``air``

In [None]:
ds["air"]

In [None]:
ds.air

In [None]:
with xr.set_options(display_style="html"):
    display(ds)

La matriz de datos tiene una dimensión con nombre:

In [None]:
ds.air.dims

y las coordenadas se guardan en ``.coord``:

In [None]:
ds.air.coords

In [None]:
ds.air.attrs

Añadir nuevos atributos

In [None]:
# ¡asigna tus propios atributos!
ds.air.attrs["who_is_awesome"] = "xarray"
ds.air.attrs

Los datos subyacentes son una matriz numpy

In [None]:
print(type(ds.air.data))
print(ds.air.data)

### 2.2 Extracción de datos

Cómo extraer datos:

* Indexación por etiquetas con ``.sel``.

* indexación basada en la posición mediante ``.isel``.

In [None]:
ds.air.isel(time=1).plot(x="lon")

Observará que la temperatura del aire está en grados Kelvin. Podemos convertirla a Celsius eliminando 273.15 y cambiando los atributos ``units``.

In [None]:
ds2=ds
ds2['air']=ds['air']-273.15
ds2['air']['units']='degC'

También queremos mostrar las longitudes en dirección oeste eliminando 360$^\circ$.

In [None]:
ds2.coords["lon"]=ds2.coords["lon"]-360

Mostrar la temperatura media

In [None]:
ds2.air.mean("time").plot()

In [None]:
ds2.sel(time="2013-05")

In [None]:
# demonstrar el rebanado
ds.sel(time=slice("2013-05", "2013-07"))

In [None]:
# "indexación más próxima en varios puntos"
ds.sel(lon=[240.125-360, 234-360], lat=[40.3, 50.3], method="nearest")

### 2.3 Computación de alto nivel

* agruparpor : Agrupa y reduce los datos

* remuestrear : Groupby especializado para ejes temporales. Reduzca o aumente la muestra de sus datos.

* rodando : Operar en ventanas móviles de sus datos, por ejemplo, media móvil.

* engrosar: reduce la muestra de sus datos.

* ponderado : Ponderar los datos antes de reducirlos

In [None]:
# groupos estacionales
ds.groupby("time.season")

In [None]:
# hacer una media estacional
seasonal_mean = ds.groupby("time.season").mean()
seasonal_mean = seasonal_mean.sel(season=["DJF", "MAM", "JJA", "SON"])
seasonal_mean

In [None]:
# remuestreo a frecuencia mensual
ds.resample(time="M").mean()

In [None]:
# faceta la media_estacional
seasonal_mean.air.plot(col="season")

Seleccionar datos entre dos fechas y reducir el tamaño del Xarray

In [None]:
# escribir en netCDF
%timeit ds.to_netcdf("my-example-dataset.nc")
!ls -lh my-example-dataset.nc

In [None]:

%timeit ds.to_zarr(store="./my-example-dataset.zarr",mode="w")
!du -sh ./my-example-dataset.zarr

# 3. Tensores Pytorch

Este material está extraído de los materiales del paquete Pytorch y de Dive into Deep Learning

La clase ``tensor`` en Pytorch es similar a un ``ndarray`` en Numpy, con las características añadidas de que: 1) tiene diferenciación automática y 2) funciona en CPUs y GPUs.

In [None]:
import torch

Podemos definir un tensor básico que será por defecto un array 1-D (vector) y se ejecutará en la CPU

In [None]:
x = torch.arange(12, dtype=torch.float32)
x

Cada valor se denomina ``elemento``. Podemos extraer la longitud del vector utilizando el **método** ``numel()`` (un método se aplica con ``()``) y su **atributo** shape se encuentra aplicando``shape``.

In [None]:
x.numel()

In [None]:
x.shape

Podemos remodelar un tensor y voltear las dimensiones

In [None]:
x.reshape(12,1).shape

In [None]:
x2=x.reshape(3,4)
x2.shape

Podemos crear un tensor aleatorio

In [None]:
x3=torch.randn(3, 4)

Podemos aplicar operaciones **element-wise** sobre el tensor simplemente como métodos. He aquí un ejemplo aplicando la función ``exp`` a todos los elementos del tensor aleatorio x3.

In [None]:
x3.exp()

Podemos manipular 2 matrices de la **misma** forma

In [None]:
x = torch.tensor([1.0, 2, 4, 8])
y = torch.tensor([2, 2, 2, 2])
x + y, x - y, x * y, x / y, x ** y

Podemos normalizar el tensor con su norma L2. Prueba a continuación

In [None]:
x /=np.linalg.norm(x)

In [None]:
x

Podemos convertir una matriz de numpy en un tensor Pytorch

In [None]:
a=x.numpy()
print(type(a))
print(type(x))

Mover un array de CPU a GPU cambiando el atributo ``device``

In [None]:
device = torch.device("cpu")
print(device)

A continuación, vamos a realizar una regresión para escribir una función seno como una función

In [None]:
import torch
import math


dtype = torch.float
device = torch.device("cpu")
# device = torch.device("cuda:0") # # Descomenta esto para ejecutar en GPU

# Crear datos aleatorios de entrada y salida
x = torch.linspace(-math.pi, math.pi, 2000, device=dispositivo, dtype=dtype)
y = torch.sin(x)

# Inicializar pesos aleatoriamente
a = torch.randn((), device=device, dtype=dtype)
b = torch.randn((), device=device, dtype=dtype)
c = torch.randn((), device=device, dtype=dtype)
d = torch.randn((), device=device, dtype=dtype)

learning_rate = 1e-6
for t in range(2000):
    # Paso anterior: cálculo de la predicción de y
    y_pred = a + b * x + c * x ** 2 + d * x ** 3

    # Calcular e imprimir loss
    loss = (y_pred - y).pow(2).sum().item()
    si t % 100 == 99
        print(t, loss)

    # Backprop para calcular los gradientes de a, b, c, d con respecto a loss
    grad_y_pred = 2.0 * (y_pred - y)
    grad_a = grad_y_pred.sum()
    grad_b = (grad_y_pred * x).sum()
    grad_c = (grad_y_pred * x ** 2).sum()
    grad_d = (grad_y_pred * x ** 3).sum()

    # Actualizar los pesos mediante el descenso por gradiente
    a -= learning_rate * grad_a
    b -= learning_rate * grad_b
    c -= learning_rate * grad_c
    d -= learning_rate * grad_d


print(f'Result: y = {a.item()} + {b.item()} x + {c.item()} x^2 + {d.item()} x^3')