<img src="../images/logos/numpy_logo.png" width=200 alt="np_logo"></img> <img src="../images/logos/pandas_secondary.svg" width=300 alt="pd_logo"></img> <img src="../images/logos/xarray-logo-square.png" width=220 alt="pd_logo"></img>

# NumPy, Pandas y Xarray

---

## Introducción
En este cuadernillo (Notebook) aprenderemos acerca de librerias útiles en la programación científica:

1. Introducción numpy
1. Introducción pandas
1. Introducción xarray

Este cuadernillo contiene información simplificada de [`Pythia Fundations`](https://foundations.projectpythia.org/landing-page.html)

## Prerequisitos
| Conceptos | Importancia | Notas |
| --- | --- | --- |
| [Introducción a Numpy](https://foundations.projectpythia.org/core/numpy.html) | Necesario | Información complementaria |
| [Introducción a Pandas](https://foundations.projectpythia.org/core/pandas.html) | Necesario | Información complementaria |
| [Introducción a Xarray](https://foundations.projectpythia.org/core/xarray.html) | Necesario | Información complementaria |

- **Tiempo de aprendizaje**: 30 minutos

---

## Librerias
A continuación presentamos las librerias que vamos a usar durante este cuadernillo

In [41]:
import numpy as np # Manejo de matrices multidimensionales
import pandas as pd # Manejo de datos tabulares y series de tiempo
import xarray as xr # Manejo óptimo de datos multidimensionales 
from pythia_datasets import DATASETS # datos disponibles en Pythia

## 1. NumPy

Numpy es un paquete o libreria fundamental en `Python`. Esta libreria nos permite trabajar principalmente con arreglos y matrices multidimencionales. `Numpy` nos permite realizar operaciones matemáticas, reorganización de matrices, aoperaciones básicas de algebra lineal, análisis estadísticos básicos entre muchas otras operaciones de manera rápida

### 1.1 Creación de vectores

Con numpy podemos realizar creacion de arreglos y vectores en multiples dimensiones usando multiples métodos. La manera mas común de crear un arreglo o matriz es usando el método `np.array`           


In [2]:
vector = np.array([1, 2, 3])
vector

array([1, 2, 3])

Objetos de tipo `NumPy` tienen métodos autocontenidos que nos permiten obterner propiedades como dimensión `ndim`, tamaño `shape` o tipo de datos contenidos `dtype`

In [3]:
vector.ndim

1

In [4]:
vector.shape

(3,)

In [5]:
vector.dtype

dtype('int32')

Ahora podemos crear una matriz de dos dimensiones de la misma manera

In [6]:
matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

array([[0, 1, 2],
       [3, 4, 5]])

In [7]:
print(f"dimensiones = {matriz_2d.ndim}, forma = {matriz_2d.shape}, y tipo {matriz_2d.dtype}")

dimensiones = 2, forma = (2, 3), y tipo int32


### 1.2 Generación de matrices y vectores

`NumPy` también ofrece funciones y métodos que permiten generar matrices o arreglos igualmente espaciados que nos permiten ahorrar tiempo a la hora de escribirlos. Generalmente `NumPy` usa reglas de indexación de la siguiente manera
* `arange(comienzo, fin, paso)` crea un arreglo o matriz de valores en el intervalo `[comienzo, fin)` espaciado cada `paso`
* `linspace(comienzo, fin, número de divisiones)` crea un arreglo o matriz de valores en el intervalo `[comienzo, fin)` igualmente espaciado usando `número de divisiones`

In [8]:
arreglo = np.arange(10)
arreglo

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [9]:
arreglo_espaciado = np.linspace(1, 10, 10)
arreglo_espaciado

array([ 1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

### 1.3 Operaciones básica usando NumPy

Podemos realizar operaciones matemáticas usando `NumPy` teniendo en cuenta que los arreglos o matrices deben tener el mismo tamaño. Las operaciones se realizaran elemento a elemento en cada arreglo matricial

In [10]:
a = np.arange(0, 6, 2)
a

array([0, 2, 4])

In [11]:
b = np.array([-1, 200, 1.3])
b

array([ -1. , 200. ,   1.3])

In [12]:
a + b

array([ -1. , 202. ,   5.3])

In [13]:
a - b

array([   1. , -198. ,    2.7])

In [14]:
a * b

array([ -0. , 400. ,   5.2])

In [15]:
a / b

array([-0.        ,  0.01      ,  3.07692308])

### 1.4 Operaciones matemáticas más complejas

`NumPy` soporta operaciones matemáticas mas complejas elemento a elemento en cada arreglo matricial. Por ejemplo, calculemos el `seno` de una matriz

In [16]:
matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

array([[0, 1, 2],
       [3, 4, 5]])

In [17]:
np.sin(matriz_2d)

array([[ 0.        ,  0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 , -0.95892427]])

Ahora usando la constante `pi`

In [18]:
t = np.arange(0, 2 * np.pi + np.pi / 4, np.pi / 4)
t

array([0.        , 0.78539816, 1.57079633, 2.35619449, 3.14159265,
       3.92699082, 4.71238898, 5.49778714, 6.28318531])

In [19]:
t / np.pi

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

In [20]:
cos_t = np.cos(t)
cos_t

array([ 1.00000000e+00,  7.07106781e-01,  6.12323400e-17, -7.07106781e-01,
       -1.00000000e+00, -7.07106781e-01, -1.83697020e-16,  7.07106781e-01,
        1.00000000e+00])

Podemos redondear las cifras usando el método `round`

In [21]:
np.round(cos_t, 2)

array([ 1.  ,  0.71,  0.  , -0.71, -1.  , -0.71, -0.  ,  0.71,  1.  ])

También podemos sumar todos elementos de un arreglo usando `np.sum`

In [22]:
np.sum(cos_t)

0.9999999999999996

Para mas funciones matemáticas disponibles en `NumPy` visite este [link](https://numpy.org/doc/stable/reference/routines.math.html)

### 1.5 Indexado y selección de valores

Podemos acceder a los valores dentro de un arreglo matricial multidimencional utilizando el indice del vector o matriz. Recordemos que en `Python` el índice arranca en 0 y que el acceso se realiza usando la notacion `[fila, columna]`  

In [23]:
matriz = np.arange(12).reshape(3, 4)
matriz

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Para acceder al primer elemento de la matriz de la siguinte manera

In [24]:
matriz[0, 0]

0

Para acceder al elemento ubicado en la fila 2 y la columna 4 tenemos que

In [25]:
matriz[1, 3]

7

Podemo acceder a los datos usando el índice en "reversa" para acceder a los ultimos elementos del arreglo

In [26]:
matriz[-1, 0]

8

In [27]:
matriz[0, -1]

3

In [28]:
matriz[-1, -1]

11

Para seleccionar de un rango de valores en un arreglo matricial usamos `[comienzo:final[:paso]]`. Tratamos de seleccionar la primera fila

In [29]:
matriz[0, 0:4]

array([0, 1, 2, 3])

Ahora la primera fila **sin** incluir el ultimo elemento

In [30]:
matriz[0, 0:-1]

array([0, 1, 2])

Podemos crear un arreglo unidimensional más largo para observar la selección de un rango de elementos usando un paso determinado

In [31]:
arreglo_largo = np.arange(0, 15, 1)
arreglo_largo

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

In [32]:
arreglo_largo[::2]

array([ 0,  2,  4,  6,  8, 10, 12, 14])

Ahora incluyendo `comienzo=3`, `final=13` `paso=2`

In [33]:
arreglo_largo[3:13:2]

array([ 3,  5,  7,  9, 11])

<div class="admonition alert alert-warning">
    <p class="admonition-title" style="font-weight:bold">Precaución</p>
    El índice en la selección de rango no incluye el valor de la derecha
</div>

In [34]:
arreglo_largo[0:3]

array([0, 1, 2])

En el arreglo anterior la selección se realizó entre el índice 0 y el 3 no incluyente

## 2. Pandas

`Pandas` es una de las librerias mas potentes en el ambito de la programación científica. [`Pandas`](https://pandas.pydata.org/) es una libreria de código abierto que permite la manipulación rápida y facil de datos tabulares en diversos formatos (Excel, texto plano separado por comas, bases de datos, pickle, entre muchos otros). El manejo de datos tabulares y series de tiempo se realiza mediante etiquetas que nos permiten escribir escribir códigos robustos


### 2.1 Pandas DataFrame

Es un conjunto de datos tabulares en dos dimensiones que usa etiquetas similar a un **hoja de calculo de excel**, una **tabla de datos** o un `data.frame` en R. Los `DataFrames` estan compuestos por columnas y filas.

<img src="../images/01_table_dataframe.svg" width=500 alt="Dataframe"></img> 

Dentro de cada `columna` podemos tener datos de diferente `tipo` incluyendo numeros, texto, estampas de tiempo, entre otros. En la imagen anterior (Cortesía de Pythia Fundations, CC), la columna de la izquierda, sombreada en color gris, es conocida como el `índice` de filas. Analogamente, la parte superior del `DataFrame`, podemos encotrar el índice de las `columnas`. Estos indices, de columna y fila, puedes ser de tipo numerico, caracteres, estampas de tiempo entre muchos otros. A continuación, se puede observar un `DataFrame` de anomalias de la temperatura superfical del mar en las diferentes regiones Niño

In [42]:
filepath = DATASETS.fetch('enso_data.csv')

In [48]:
df = pd.read_csv(filepath)
df.head()

Unnamed: 0,datetime,Nino12,Nino12anom,Nino3,Nino3anom,Nino4,Nino4anom,Nino34,Nino34anom
0,1982-01-01,24.29,-0.17,25.87,0.24,28.3,0.0,26.72,0.15
1,1982-02-01,25.49,-0.58,26.38,0.01,28.21,0.11,26.7,-0.02
2,1982-03-01,25.21,-1.31,26.98,-0.16,28.41,0.22,27.2,-0.02
3,1982-04-01,24.5,-0.97,27.68,0.18,28.92,0.42,28.02,0.24
4,1982-05-01,23.97,-0.23,27.79,0.71,29.49,0.7,28.54,0.69


Como podemos observar el índice, tanto en filas y columnas, se  resaltan en *negrita*. En la filas el indice por defecto es una secuencia numerada que incia en 0 y termina en el numero de filas del set de datos. Para acceder al `índice` en filas podemos usar el atributo `.index` y en columnas `.columns`

In [49]:
df.index

RangeIndex(start=0, stop=472, step=1)

Aun no hemos aprovechado las ventajas de `Pandas` usando etiquetas en lo `índices`. Esto nos perminitiría trabajar de manera más fácil con los datos contenidos en este set de datos. Para esto, procedermos a utilizar la columna `datetime` como índice de las filas en formato de estampa de tiempo. Para hacer esto podemos pasar una serie de argumento al método [`pd.read_csv`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [51]:
df = pd.read_csv(filepath, index_col=0, parse_dates=True)

In [52]:
df.head()

Unnamed: 0_level_0,Nino12,Nino12anom,Nino3,Nino3anom,Nino4,Nino4anom,Nino34,Nino34anom
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1982-01-01,24.29,-0.17,25.87,0.24,28.3,0.0,26.72,0.15
1982-02-01,25.49,-0.58,26.38,0.01,28.21,0.11,26.7,-0.02
1982-03-01,25.21,-1.31,26.98,-0.16,28.41,0.22,27.2,-0.02
1982-04-01,24.5,-0.97,27.68,0.18,28.92,0.42,28.02,0.24
1982-05-01,23.97,-0.23,27.79,0.71,29.49,0.7,28.54,0.69


Como podemos ver el índice ahora es la columna `datetime` y esta en formato `timestamp`

In [59]:
df.index

DatetimeIndex(['1982-01-01', '1982-02-01', '1982-03-01', '1982-04-01',
               '1982-05-01', '1982-06-01', '1982-07-01', '1982-08-01',
               '1982-09-01', '1982-10-01',
               ...
               '2020-07-01', '2020-08-01', '2020-09-01', '2020-10-01',
               '2020-11-01', '2020-12-01', '2021-01-01', '2021-02-01',
               '2021-03-01', '2021-04-01'],
              dtype='datetime64[ns]', name='datetime', length=472, freq=None)

De igaul manera podemos ver los índices / nombres de las columnas de la siguiente manera

In [60]:
df.columns

Index(['Nino12', 'Nino12anom', 'Nino3', 'Nino3anom', 'Nino4', 'Nino4anom',
       'Nino34', 'Nino34anom'],
      dtype='object')

### 2.2. Pandas Series

Una serie de tiempo en `Pandas` hace refencia a datos tabulares que continenen una sola columna; al igual que un `DataFrame` puede contener cualquir tipo de dato o variable. En el siguiente ejemplo extraeremos la `serie` de datos de la anomalia de la temperatura superficial de niño en la región 3-4 usando el método de llave-valor `['']`

In [67]:
series = df['Nino34anom']
series.head()

datetime
1982-01-01    0.15
1982-02-01   -0.02
1982-03-01   -0.02
1982-04-01    0.24
1982-05-01    0.69
Name: Nino34anom, dtype: float64

Alternativamente, podemos acceder a misma serie de datos usando el método `punto` de la siguiente manera

In [68]:
series = df.Nino34anom
series.head()

datetime
1982-01-01    0.15
1982-02-01   -0.02
1982-03-01   -0.02
1982-04-01    0.24
1982-05-01    0.69
Name: Nino34anom, dtype: float64

### 2.3 Selección de series y cubos de datos

Como mencionamos anteriormente, las *etiquetas* en los índices nos permiten seleccionar un sub set de datos de manera rápida y fácil utilizando las ventajas de `Pandas`. En el ejemplo anterior utilizamos las etiquetas de columna para acceder a la serie de datos correspondiente (Columna). Para acceder a una fila de datos podemos usar la notación e indexación sugerida por `NumPy` sin embargo esta manera **no** es recomendada

In [70]:
series[0]

  series[0]


0.15

Preferiblemente debemos usar las etiquetas de la fila de la siguiente manera

In [72]:
series['2000-09-01']

-0.51

Si queremos extraer un intervalo de datos podemos usar las etiquetas de índice de filas de la siguiente manera

In [75]:
series['2000-01-01': '2001-12-01']

datetime
2000-01-01   -1.92
2000-02-01   -1.53
2000-03-01   -1.14
2000-04-01   -0.77
2000-05-01   -0.73
2000-06-01   -0.62
2000-07-01   -0.50
2000-08-01   -0.37
2000-09-01   -0.51
2000-10-01   -0.73
2000-11-01   -0.87
2000-12-01   -0.98
2001-01-01   -0.83
2001-02-01   -0.61
2001-03-01   -0.38
2001-04-01   -0.26
2001-05-01   -0.25
2001-06-01    0.03
2001-07-01    0.10
2001-08-01    0.05
2001-09-01   -0.17
2001-10-01   -0.10
2001-11-01   -0.20
2001-12-01   -0.40
Name: Nino34anom, dtype: float64

`Python` usa una herramienta muy util para hacer seleccion de datos usando `slice`. Esta función autocontenida nos permite crear cortes en intervalos de la siguiente manera `[comiezo, fin, paso]`

In [83]:
series[slice('2000-01-01', '2001-12-01')]

datetime
2000-01-01   -1.92
2000-02-01   -1.53
2000-03-01   -1.14
2000-04-01   -0.77
2000-05-01   -0.73
2000-06-01   -0.62
2000-07-01   -0.50
2000-08-01   -0.37
2000-09-01   -0.51
2000-10-01   -0.73
2000-11-01   -0.87
2000-12-01   -0.98
2001-01-01   -0.83
2001-02-01   -0.61
2001-03-01   -0.38
2001-04-01   -0.26
2001-05-01   -0.25
2001-06-01    0.03
2001-07-01    0.10
2001-08-01    0.05
2001-09-01   -0.17
2001-10-01   -0.10
2001-11-01   -0.20
2001-12-01   -0.40
Name: Nino34anom, dtype: float64

Los datos tambien pueden ser seleccionados usando el método [`loc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) que también nos permite acceder por etiquetas

In [87]:
series.loc["1982-01-01"]

0.15

o su equivalente usando el índice [`iloc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

In [88]:
series.iloc[0]

0.15

Ahora que sabemos los fundamentos básicos de seleccion de datos en series temporales, podemos pasar a seleccionar datos en `DataFrames`. Para accerder a multiples columnas usamos la siguiente notación

In [89]:
df['Nino34anom'].head() # para una sola columna

datetime
1982-01-01    0.15
1982-02-01   -0.02
1982-03-01   -0.02
1982-04-01    0.24
1982-05-01    0.69
Name: Nino34anom, dtype: float64

In [91]:
df[['Nino34', 'Nino34anom']].head() # para multiples columnas

Unnamed: 0_level_0,Nino34,Nino34anom
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
1982-01-01,26.72,0.15
1982-02-01,26.7,-0.02
1982-03-01,27.2,-0.02
1982-04-01,28.02,0.24
1982-05-01,28.54,0.69


Acceder a las etiquetas de fila y columnas es preferible usar el método `loc` de la siguiente manera `.loc[filas, columnas]`

In [101]:
df.loc["1982-04-01", "Nino34"]

28.02

In [102]:
df.loc["1982-04-01"]

Nino12        24.50
Nino12anom    -0.97
Nino3         27.68
Nino3anom      0.18
Nino4         28.92
Nino4anom      0.42
Nino34        28.02
Nino34anom     0.24
Name: 1982-04-01 00:00:00, dtype: float64

In [103]:
df.loc["1982-01-01":"1982-12-01"]

Unnamed: 0_level_0,Nino12,Nino12anom,Nino3,Nino3anom,Nino4,Nino4anom,Nino34,Nino34anom
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1982-01-01,24.29,-0.17,25.87,0.24,28.3,0.0,26.72,0.15
1982-02-01,25.49,-0.58,26.38,0.01,28.21,0.11,26.7,-0.02
1982-03-01,25.21,-1.31,26.98,-0.16,28.41,0.22,27.2,-0.02
1982-04-01,24.5,-0.97,27.68,0.18,28.92,0.42,28.02,0.24
1982-05-01,23.97,-0.23,27.79,0.71,29.49,0.7,28.54,0.69
1982-06-01,22.89,0.07,27.46,1.03,29.76,0.92,28.75,1.1
1982-07-01,22.47,0.87,26.44,0.82,29.38,0.58,28.1,0.88
1982-08-01,21.75,1.1,26.15,1.16,29.04,0.36,27.93,1.11
1982-09-01,21.8,1.44,26.52,1.67,29.16,0.47,28.11,1.39
1982-10-01,22.94,2.12,27.11,2.19,29.38,0.72,28.64,1.95


In [104]:
df.loc["1982-01-01":"1982-12-01", ['Nino34', 'Nino34anom'] ]

Unnamed: 0_level_0,Nino34,Nino34anom
datetime,Unnamed: 1_level_1,Unnamed: 2_level_1
1982-01-01,26.72,0.15
1982-02-01,26.7,-0.02
1982-03-01,27.2,-0.02
1982-04-01,28.02,0.24
1982-05-01,28.54,0.69
1982-06-01,28.75,1.1
1982-07-01,28.1,0.88
1982-08-01,27.93,1.11
1982-09-01,28.11,1.39
1982-10-01,28.64,1.95


Para mas funciones y operaciones se puede consultar la documentación oficial de [`Pandas`](https://pandas.pydata.org/docs/reference/frame.html)

## 3. Xarray

En Python, un programa puede ser una sola línea de código

---

## Conclusiones
Add one final `---` marking the end of your body of content, and then conclude with a brief single paragraph summarizing at a high level the key pieces that were learned and how they tied to your objectives. Look to reiterate what the most important takeaways were.

### What's next?
Let Jupyter book tie this to the next (sequential) piece of content that people could move on to down below and in the sidebar. However, if this page uniquely enables your reader to tackle other nonsequential concepts throughout this book, or even external content, link to it here!

## Fuentes y referencias
