<img src="../images/logos/numpy_logo.png" width=200 alt="np_logo"></img> <img src="../images/logos/pandas_secondary.svg" width=300 alt="pd_logo"></img> <img src="../images/logos/xarray-logo-square.png" width=220 alt="pd_logo"></img>

# NumPy, Pandas y Xarray

---

## Introducción
En este cuadernillo (Notebook) aprenderemos acerca de librerias útiles en la programación científica:

1. Introducción numpy
1. Introducción pandas
1. Introducción xarray

Este cuadernillo contiene información simplificada de [`Pythia Fundations`](https://foundations.projectpythia.org/landing-page.html)

## Prerequisitos
| Conceptos | Importancia | Notas |
| --- | --- | --- |
| [Introducción a Numpy](https://foundations.projectpythia.org/core/numpy.html) | Necesario | Información complementaria |
| [Introducción a Pandas](https://foundations.projectpythia.org/core/pandas.html) | Necesario | Información complementaria |
| [Introducción a Xarray](https://foundations.projectpythia.org/core/xarray.html) | Necesario | Información complementaria |

- **Tiempo de aprendizaje**: 30 minutos

---

## Librerias
A continuación presentamos las librerias que vamos a usar durante este cuadernillo

In [None]:
import numpy as np # Manejo de matrices multidimensionales
import pandas as pd # Manejo de datos tabulares y series de tiempo
import xarray as xr # Manejo óptimo de datos multidimensionales 
from pythia_datasets import DATASETS # datos disponibles en Pythia

## 1. NumPy

Numpy es un paquete o libreria fundamental en `Python`. Esta libreria nos permite trabajar principalmente con arreglos y matrices multidimencionales. `Numpy` nos permite realizar operaciones matemáticas, reorganización de matrices, aoperaciones básicas de algebra lineal, análisis estadísticos básicos entre muchas otras operaciones de manera rápida

### 1.1 Creación de vectores

Con numpy podemos realizar creacion de arreglos y vectores en multiples dimensiones usando multiples métodos. La manera mas común de crear un arreglo o matriz es usando el método `np.array`           


In [None]:
vector = np.array([1, 2, 3])
vector

Objetos de tipo `NumPy` tienen métodos autocontenidos que nos permiten obterner propiedades como dimensión `ndim`, tamaño `shape` o tipo de datos contenidos `dtype`

In [None]:
vector.ndim

In [None]:
vector.shape

In [None]:
vector.dtype

Ahora podemos crear una matriz de dos dimensiones de la misma manera

In [None]:
matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

In [None]:
print(f"dimensiones = {matriz_2d.ndim}, forma = {matriz_2d.shape}, y tipo {matriz_2d.dtype}")

### 1.2 Generación de matrices y vectores

`NumPy` también ofrece funciones y métodos que permiten generar matrices o arreglos igualmente espaciados que nos permiten ahorrar tiempo a la hora de escribirlos. Generalmente `NumPy` usa reglas de indexación de la siguiente manera
* `arange(comienzo, fin, paso)` crea un arreglo o matriz de valores en el intervalo `[comienzo, fin)` espaciado cada `paso`
* `linspace(comienzo, fin, número de divisiones)` crea un arreglo o matriz de valores en el intervalo `[comienzo, fin)` igualmente espaciado usando `número de divisiones`

In [None]:
arreglo = np.arange(10)
arreglo

In [None]:
arreglo_espaciado = np.linspace(1, 10, 10)
arreglo_espaciado

### 1.3 Operaciones básica usando NumPy

Podemos realizar operaciones matemáticas usando `NumPy` teniendo en cuenta que los arreglos o matrices deben tener el mismo tamaño. Las operaciones se realizaran elemento a elemento en cada arreglo matricial

In [None]:
a = np.arange(0, 6, 2)
a

In [None]:
b = np.array([-1, 200, 1.3])
b

In [None]:
a + b

In [None]:
a - b

In [None]:
a * b

In [None]:
a / b

### 1.4 Operaciones matemáticas más complejas

`NumPy` soporta operaciones matemáticas mas complejas elemento a elemento en cada arreglo matricial. Por ejemplo, calculemos el `seno` de una matriz

In [None]:
matriz_2d = np.array([[0, 1, 2], [3, 4, 5]])
matriz_2d

In [None]:
np.sin(matriz_2d)

Ahora usando la constante `pi`

In [None]:
t = np.arange(0, 2 * np.pi + np.pi / 4, np.pi / 4)
t

In [None]:
t / np.pi

In [None]:
cos_t = np.cos(t)
cos_t

Podemos redondear las cifras usando el método `round`

In [None]:
np.round(cos_t, 2)

También podemos sumar todos elementos de un arreglo usando `np.sum`

In [None]:
np.sum(cos_t)

Para mas funciones matemáticas disponibles en `NumPy` visite este [link](https://numpy.org/doc/stable/reference/routines.math.html)

### 1.5 Indexado y selección de valores

Podemos acceder a los valores dentro de un arreglo matricial multidimencional utilizando el indice del vector o matriz. Recordemos que en `Python` el índice arranca en 0 y que el acceso se realiza usando la notacion `[fila, columna]`  

In [None]:
matriz = np.arange(12).reshape(3, 4)
matriz

Para acceder al primer elemento de la matriz de la siguinte manera

In [None]:
matriz[0, 0]

Para acceder al elemento ubicado en la fila 2 y la columna 4 tenemos que

In [None]:
matriz[1, 3]

Podemo acceder a los datos usando el índice en "reversa" para acceder a los ultimos elementos del arreglo

In [None]:
matriz[-1, 0]

In [None]:
matriz[0, -1]

In [None]:
matriz[-1, -1]

Para seleccionar de un rango de valores en un arreglo matricial usamos `[comienzo:final[:paso]]`. Tratamos de seleccionar la primera fila

In [None]:
matriz[0, 0:4]

Ahora la primera fila **sin** incluir el ultimo elemento

In [None]:
matriz[0, 0:-1]

Podemos crear un arreglo unidimensional más largo para observar la selección de un rango de elementos usando un paso determinado

In [None]:
arreglo_largo = np.arange(0, 15, 1)
arreglo_largo

In [None]:
arreglo_largo[::2]

Ahora incluyendo `comienzo=3`, `final=13` `paso=2`

In [None]:
arreglo_largo[3:13:2]

<div class="admonition alert alert-warning">
    <p class="admonition-title" style="font-weight:bold">Precaución</p>
    El índice en la selección de rango no incluye el valor de la derecha
</div>

In [None]:
arreglo_largo[0:3]

En el arreglo anterior la selección se realizó entre el índice 0 y el 3 no incluyente

## 2. Pandas

`Pandas` es una de las librerias mas potentes en el ambito de la programación científica. [`Pandas`](https://pandas.pydata.org/) es una libreria de código abierto que permite la manipulación rápida y facil de datos tabulares en diversos formatos (Excel, texto plano separado por comas, bases de datos, pickle, entre muchos otros). El manejo de datos tabulares y series de tiempo se realiza mediante etiquetas que nos permiten escribir escribir códigos robustos


### 2.1 Pandas DataFrame

Es un conjunto de datos tabulares en dos dimensiones que usa etiquetas similar a un **hoja de calculo de excel**, una **tabla de datos** o un `data.frame` en R. Los `DataFrames` estan compuestos por columnas y filas.

<img src="../images/01_table_dataframe.svg" width=500 alt="Dataframe"></img> 

Dentro de cada `columna` podemos tener datos de diferente `tipo` incluyendo numeros, texto, estampas de tiempo, entre otros. En la imagen anterior (Cortesía de Pythia Fundations, CC), la columna de la izquierda, sombreada en color gris, es conocida como el `índice` de filas. Analogamente, la parte superior del `DataFrame`, podemos encotrar el índice de las `columnas`. Estos indices, de columna y fila, puedes ser de tipo numerico, caracteres, estampas de tiempo entre muchos otros. A continuación, se puede observar un `DataFrame` de anomalias de la temperatura superfical del mar en las diferentes regiones Niño

In [None]:
filepath = DATASETS.fetch('enso_data.csv')

In [None]:
df = pd.read_csv(filepath)
df.head()

Como podemos observar el índice, tanto en filas y columnas, se  resaltan en *negrita*. En la filas el indice por defecto es una secuencia numerada que incia en 0 y termina en el numero de filas del set de datos. Para acceder al `índice` en filas podemos usar el atributo `.index` y en columnas `.columns`

In [None]:
df.index

Aun no hemos aprovechado las ventajas de `Pandas` usando etiquetas en lo `índices`. Esto nos perminitiría trabajar de manera más fácil con los datos contenidos en este set de datos. Para esto, procedermos a utilizar la columna `datetime` como índice de las filas en formato de estampa de tiempo. Para hacer esto podemos pasar una serie de argumento al método [`pd.read_csv`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)

In [None]:
df = pd.read_csv(filepath, index_col=0, parse_dates=True)

In [None]:
df.head()

Como podemos ver el índice ahora es la columna `datetime` y esta en formato `timestamp`

In [None]:
df.index

De igaul manera podemos ver los índices / nombres de las columnas de la siguiente manera

In [None]:
df.columns

### 2.2. Pandas Series

Una serie de tiempo en `Pandas` hace refencia a datos tabulares que continenen una sola columna; al igual que un `DataFrame` puede contener cualquir tipo de dato o variable. En el siguiente ejemplo extraeremos la `serie` de datos de la anomalia de la temperatura superficial de niño en la región 3-4 usando el método de llave-valor `['']`

In [None]:
series = df['Nino34anom']
series.head()

Alternativamente, podemos acceder a misma serie de datos usando el método `punto` de la siguiente manera

In [None]:
series = df.Nino34anom
series.head()

### 2.3 Selección de series y cubos de datos

Como mencionamos anteriormente, las *etiquetas* en los índices nos permiten seleccionar un sub set de datos de manera rápida y fácil utilizando las ventajas de `Pandas`. En el ejemplo anterior utilizamos las etiquetas de columna para acceder a la serie de datos correspondiente (Columna). Para acceder a una fila de datos podemos usar la notación e indexación sugerida por `NumPy` sin embargo esta manera **no** es recomendada

In [None]:
series[0]

Preferiblemente debemos usar las etiquetas de la fila de la siguiente manera

In [None]:
series['1982-01-01']

Si queremos extraer un intervalo de datos podemos usar las etiquetas de índice de filas de la siguiente manera

In [None]:
series['2000-01-01': '2001-12-01']

`Python` usa una herramienta muy util para hacer seleccion de datos usando `slice`. Esta función autocontenida nos permite crear cortes en intervalos de la siguiente manera `[comiezo, fin, paso]`

In [None]:
series[slice('2000-01-01', '2001-12-01')]

El método [`loc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) también nos permite acceder por etiquetas 

In [None]:
series.loc["1982-01-01"]

o su equivalente usando el índice [`iloc`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.iloc.html)

In [None]:
series.iloc[0]

Ahora que sabemos los fundamentos básicos de seleccion de datos en series temporales, podemos pasar a seleccionar datos en `DataFrames`. Para accerder a **una sola** columna usamos la notación de diccionario `llave/valor` como vimos anteriormente

In [None]:
df['Nino34anom'].head() # para una sola columna

Para seleccionar multiples `columnas` se utiliza doble corchete cuadrado anidado `[['col1', 'col2', ..., 'coln']]`

In [None]:
df[['Nino34', 'Nino34anom']].head() 

Seleccionar datos usando etiquetas de fila y columnas se puede llevar a cabo usando el método `loc` de la siguiente manera `.loc[filas, columnas]`

In [None]:
df.loc["1982-04-01", "Nino34"]

Si seleccionamos datos unicamente por la `etiqueta` de la `fila` nos retornará una serie con el los datos de todas las `columnas`

In [None]:
df.loc["1982-04-01"]

Podemos seleccionar un rango de fechas

In [None]:
df.loc["1982-01-01":"1982-12-01"]

De igual modo podemos seleccionar un `cubo` de datos combinando los métodos anteriormente vistos

In [None]:
df.loc["1982-01-01":"1982-12-01", ['Nino34', 'Nino34anom']]

### 2.4 Análisis exploratorios

`Pandas` nos permite visualizar las primeras y últimas filas de los `DataFrames` usando `.head()` y `.tail()`

In [None]:
df.head()

In [None]:
df.tail()

Para conocer la información de tipo de datos, número de datos faltantes y otras propiedades del `DataFrame` podemos usar el método `.info()`

In [None]:
df.info()

Podemos usar el método `.describe()` para acceder a una descripción estadística rápida del `DataFrame`

In [None]:
df.describe()

Podemos calcular el valor medio de una `serie` o un `DataFrame` usando el metodo `.mean()`

In [None]:
df['Nino34anom'].mean()

In [None]:
df.mean()

El método `.mean()` calcula el valor medio a lo largo de las `columnas`, sin embargo podemos calcular la media a lo largo de las filas usando el argumento `axis`

In [None]:
df.mean(axis=1)

De manera similar podemos calcular la desviación estandar usando el método `.std()`

In [None]:
df.std()

Para mas funciones y operaciones se puede consultar la documentación oficial de [`Pandas`](https://pandas.pydata.org/docs/reference/frame.html)

### 2.6 Gráficos rápidos

`Pandas` nos permite generar gráficos rápidos que también nos permiten hacer análisis exploratorios de los datos. Pandas contiene el metodo `.plot` para generar plots sin necesidad de usar `matplotlib`

In [None]:
df.Nino34.plot();

el método `.plot()` genera un gráfico de tipo linea simple. Sin embargo, Podemos generar gráficos mas complejos utilizando otros métodos como `.hist` que retorna un histográma

In [None]:
df.Nino34.plot.hist();
# df[['Nino12', 'Nino34']].plot.hist();

O simplemente un diagrama de cajas nos permitiría conocer los datos de una manera más sencilla.

In [None]:
df[['Nino12', 'Nino34']].plot.box();

Para mas información de gráficos pueden consultar en este [link](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.plot.html)

## 3. Xarray

`Xarray` es una libreria impliamente utilizada en el area de las geociencias para el análisis de datos multidimensionales (2-D, 3-D, ..., N-D). Al igual que `Pandas` las principales ventajas de `Xarray` radican en la manipulación de datos mediante `etiquetas` y `coordenadas` en cada una de sus `dimensiones`. 

---

## Conclusiones
Add one final `---` marking the end of your body of content, and then conclude with a brief single paragraph summarizing at a high level the key pieces that were learned and how they tied to your objectives. Look to reiterate what the most important takeaways were.

### What's next?
Let Jupyter book tie this to the next (sequential) piece of content that people could move on to down below and in the sidebar. However, if this page uniquely enables your reader to tackle other nonsequential concepts throughout this book, or even external content, link to it here!

## Fuentes y referencias
