# 3. Paquetes útiles

Python extiende sus capacidades mediante la importación de paquetes. Los paquetes en los que nos centraremos ahora serán `numpy`, para el manejo de datos n-dimensionales y operaciones vectorizadas; `pandas`, para el manejo de datos tabulares y series de tiempo; y matplotlib, para realizar gráficos de nuestros datos

## 3.1 Numpy
Numpy es el paquete fundamental de python para cualquier tipo de cálculo científico a realizar. En comparación al módulo `math` de la libreria estandar de Python, `numpy` es capaz de operar sobre arreglos n-dimensionales de manera eficiente. Para más detalles pueden dirigirse a la página oficial de [Numpy](https://numpy.org/).

La estructura básica de Numpy son los `ndarray`, que significa "n dimensional array", los cuales pueden ser construidos de diferentes formas. Revisaremos los métodos más convenientes para crear un `ndarray` y realizar operaciones con ellos

In [None]:
import numpy as np

- ### `np.array`
Es la forma más simple de declarar un arreglo de numpy. Nos solicita como argumento algun elemento que tenga forma de arreglo (como las listas).

In [None]:
datos = [[3, 2, 5, 6, 1, 9, 5],
         [0, -2, 5, 7, 3, 2, 6]]
narr = np.array(datos)
narr

Una vez que tenemos un arreglo de numpy asignado a una variable, podemos obtener las propiedades del arreglo usando `ndim`, `shape`, `size`, `dtype`, entre otros.

In [None]:
narr.ndim, narr.shape, narr.dtype

- ### `np.zeros`, `np.ones`, `np.full`
Estas funciones retornarán arreglos de numpy llenos de zeros (`np.zeros`), unos (`np.ones`) o del numero que quisieramos (`np.full`). Las tres funciones nos solicitan que pasemos las dimensiones del arreglo de salida en forma de una tupla `(nx, ny, nz, ...)`

In [None]:
np.zeros((4, 5))

In [None]:
np.ones((6, 2))

In [None]:
np.full((4, 6), 9)

- ### `np.eye`
Esta función sirve para crear la matriz identidad `I`. Al ser un arreglo cuadrado, lo único que nos pide esta función como parámetro es un número entero `n` para construir el arreglo `(n,n)`.

In [None]:
np.eye(5)

- ### `np.reshape`
Esta función nos permite cambiar de forma nuestro arreglo mientras que la cantidad de elementos se conserve. Nos pide como argumento la nueva forma para el arreglo.
Para obtener la cantidad de elementos de un arreglo de numpy se usa la propiedad `size`.

In [None]:
A = np.zeros((10,8))
print(f"El arreglo A tiene {A.size} elementos y forma {A.shape}")
B = A.reshape((20,4))
print(f"El arreglo B tiene {B.size} elementos y forma {B.shape}")

- ### `np.arange`
Similar a la función propia de python `range`, `np.arange` nos creará un arreglo de numeros espaciados regularmente dentro de un objeto de numpy. Para hacer uso de la función le podemos proporcionar tres argumentos (start, stop, step) o un solo valor (stop) en donde comenzará el arreglo desde 0 con espaciado 1. El arreglo de salida será 1-dimensional (detalles más adelante)

In [None]:
np.arange(19)

In [None]:
np.arange(2, 100, 2)

In [None]:
np.arange(-90, 90, 0.125) # el espaciado puede ser decimal

- ### `np.linspace`
Similar a `np.arange`, tambien creará una serie de elementos en un objeto de numpy, la diferencia está en que generará la cantidad de elementos que solicitemos espaciados regularmente, sin necesidad de especificar los _step_

In [None]:
np.linspace(10, 15, 7) # Queremos 7 numeros que esten entre 10 y 15

In [None]:
np.linspace(-15,15,30) # 30 elementos entre -15 y 15

- ### `np.meshgrid`
Esta función generará un malla proveniente de dos vectores bases. Esto es util cuando se quiere generar pares ordenados de lon/lat.

In [None]:
x = np.arange(2, 6, 0.5)
y = np. arange(10, 18, 2)

print(f"x es : {x}")
print(f"y es : {y}")

xx, yy = np.meshgrid(x, y)

In [None]:
xx

In [None]:
yy

- ### `np.full_like`, `np.ones_like`, `np.zeros_like`
Estas funciones nos permitiran crear arreglos que cuenten con igual forma al arreglo que le proporcionamos

In [None]:
A = np.arange(20).reshape(5,4)
print(A)
print("\nones_like:\n",np.ones_like(A))
print("\nzeros_like:\n",np.zeros_like(A))
print("\nfull_like:\n",np.full_like(A, -4))

### Operaciones entre arreglos de numpy
Desde las operaciones básicas hasta las más complejas, numpy hace uso del _broadcasting_ el cual permite operar en arreglos de distintas dimensiones, replicando el arreglo de menor dimension hasta emparejar el arreglo de mayor dimensión.

#### ⚠ Cuidado con los arreglos 1-dimensionales 💀
Numpy tiene una particularidad cuando empezamos a tratar datos de varias dimensiones. Para entender esto, vamos a verificar las dimensiones de un arreglo generado por `np.arange`

In [None]:
C = np.arange(10)
print(f"El arreglo C es {C}\n y tiene forma {C.shape}")

A simple vista parece un vector que tiene 1 fila y 100 columnas, i.e. forma (1,100), pero al verificar la forma usando `shape` vemos que numpy lo reconoce como un arreglo de forma (100,). El conteo de dimensiones muestra que nuestro arreglo tiene 1 dimensión

In [None]:
C.ndim

Esto puede introducir ciertos errores al momento de realizar operaciones con arreglos de más dimensiones o puede otorgar resultados inesperados. Un ejemplo sería el calculo de la transpuesta para nuestro arreglo C. Lo que se esperaría es que nos retorne una columna, sin embargo esto no sucede

In [None]:
C.T

Para evitar este tipo de situaciones, nunca esta de más pasar un `np.reshape` con la forma del arreglo que se espera.

In [None]:
C_arr = C.reshape((1,10))
print(C_arr)
print(f"El arreglo C_arr tiene forma {C_arr.shape}")

In [None]:
C_arrT = C_arr.T
print(C_arrT)
print(f"La transpuesta de C_arr tiene forma {C_arrT.shape}")

### _Broadcasting_

Numpy nos permite realizar operaciones entre arreglos de diferentes dimensiones en muchos casos. Esto se puede apreciar en la siguiente imagen
![Broadcasting](../Images/npbroadcasting.png)

_[fuente](https://mathematica.stackexchange.com/questions/99171/how-to-implement-the-general-array-broadcasting-method-from-numpy/99553)_


#### Puntos a tener en cuenta
- El _broadcasting_ compara dimension por dimension de derecha a izquierda
- Cuando una dimensión tiene tamaño 1, este elemento es replicado hasta ser equivalente con la dimension comparada
- Una buena implementación en las operaciones de numpy evita el uso de bucles

In [None]:
A = np.arange(6).reshape((1,6))
B = np.arange(4).reshape((4,1))
print(A)
print(f"A tiene forma {A.shape}")
print(B)
print(f"B tiene forma {B.shape}")

In [None]:
C = A + B
print(C)
print(f"C tiene forma {C.shape}")

In [None]:
# Para casos n-dimensionales
A = np.random.rand(20,40,6,23)
B = np.random.rand(1,6,1)

C = A*B
print(f"A tiene forma {A.shape}")
print(f"B tiene forma {B.shape}")
print(f"C tiene forma {C.shape}")

Tener en cuenta las dimensiones tienen que se compatibles, esto quiere decir que al momento de hacer el emparejamiento dimensión por dimensión las dimensiones emparejadas deben ser iguales o al menos una tiene que ser 1

## 3.2 Pandas
Pandas es la herramienta por excelencia de python para operar sobre data tabular y manejar series de tiempo. Para poder usar este paquete de manera eficiente, tenemos que entender las dos estructuras básicas de pandas: las series y los _dataframes_

In [None]:
import pandas as pd
%matplotlib inline

### 3.2.1 Series

Una serie de pandas es un arreglo unidimensional de valores los cuales tienen un índice asociado. Por lo general, cuando se trabajan con series de tiempo es común encontrar las fechas en el índice de la serie. La manera más simple de construir una serie de pandas es pasando un arreglo unidimensional de datos ya sea una lista, un arreglo de numpy o un diccionario.

In [None]:
pd.Series(np.arange(10))

Por defecto, pandas asigna un índice a nuestra serie si no especificamos nada al crear la serie.

In [None]:
pd.Series(np.arange(10),list('abcdefghij'))

In [None]:
temp = pd.Series(np.random.randn(365*3),pd.date_range("2017-01-01",freq='D', periods=365*3),name="temperature")
temp.head()

Ya que tenemos fechas en nuestro índice, podemos realizar algunas operaciones interesantes

In [None]:
temp.resample('1M').mean().head()

In [None]:
temp.groupby(temp.index.month).mean()

In [None]:
temp.groupby(temp.index.day).max()

### 3.2.2 DataFrames

Los DataFrames son colecciones de series que comparten un índice en común. Se puede entender como una tabla de datos (2D) similar a las tablas de Excel.

Para construir un DataFrame podemos pasar un diccionario como data o un arreglo 2d de numpy

In [None]:
pd.DataFrame({'col1':np.random.randn(10),'col2':np.random.randn(10)})

In [None]:
df = pd.DataFrame(np.random.randn(15,6), index=pd.date_range("2019-01-01",freq='D',periods=15), columns=['temp', 'precip', 'pres', 'x', 'y', 'z'])
df

In [None]:
df.describe()

Si indexamos por columna sobre el dataframe, vamos a obtener una serie como resultado

In [None]:
df['temp']

## Datos ARGO 

Vamos a acceder a la base de datos de los flotadores ARGO que se encuentra en el [FTP de Ifremer](ftp://ftp.ifremer.fr/ifremer/argo). Este archivo se puede descargar como tambien leer directamente desde la url. Para dicho fin, pandas posee funciones especializadas en leer datos en distintos formatos como separados por comas, de ancho fijo, hojas de excel, etc. Para nuestro caso especfíco usaremos `pd.read_csv`.

El contenido de esta base de datos corresponde a los perfiles que fueron actualizados en la ultima semana a nivel global. Podemos visualizar los datos en: ftp://ftp.ifremer.fr/ifremer/argo/ar_index_this_week_prof.txt

In [None]:
# el archivo incluido en la carpeta Data puede estar desactualizado
argo = pd.read_csv('../Data/ar_index_this_week_prof.txt', skiprows=8)
argo.head()

La columna date representa la fecha original en la que fue tomado el perfil y la columna date_update la fecha en la que se actualizo el archivo en la base de datos de Ifremer.

Podemos acceder a cada columna usando la notación de python para _indexing_ (uso de `[]`) con el nombre de cada columna

In [None]:
argo['ocean'].head()

Si deseamos seleccionar varias columnas a la vez tenemos que colocar los nombres dentro de una lista

In [None]:
argo[['date','ocean','institution']].head()

Si deseamos seleccionar nuestro DataFrame por filas, podemos usar `loc` o `iloc`. `loc` hace una selección sobre el DataFrame acorde al contenido del índice, es decir, que si escribimos `df.loc[4]` va a buscar todos los elementos que tengan 4 como índice; mientras que para `iloc` lo retornado sería el elemento que se encuentra en la posición 4 del índice.

Como al cargar el DataFrame no especificamos un indice, pandas asigna una secuencia consecutiva de números únicos a cada fila, por lo que el uso de `loc` y `iloc` sera equivalente en nuestro caso.

Además, podemos obtener información útil sobre los elementos de cada columna del DataFrame usando el método `info`

In [None]:
argo.info()

Una vez que tenemos una idea general de como manejar los DataFrames el siguiente paso es procesar los datos ya que estos no se encuentran en los formatos que esperamos. Lo que resalta a primera vista es que las fechas tienen tipo `float64` por lo que no han sido leidas correctamente. Nuestro principal aliado para interpretar distintos formatos de fechas `pd.to_datetime`.

In [None]:
pd.to_datetime(argo['date'].astype(str).str.slice(None,-2), format='%Y%m%d%H%M%S', errors='coerce').head()

Vamos a aplicar este arreglo en las columnas que lo necesiten

In [None]:
argo['date'] = pd.to_datetime(argo['date'].astype(str).str.slice(None,-2), format='%Y%m%d%H%M%S', errors='coerce')
argo['date_update'] = pd.to_datetime(argo['date_update'].astype(str).str.slice(None,-2), format='%Y%m%d%H%M%S', errors='coerce')
argo.head()

La columna file tiene rutas hacia los archivos de los perfiles en el centro de datos por lo que podemos tener varios perfiles para un solo flotador. Queremos crear una nueva columna `Id` que tenga solo el numero de plataforma para cada flotador. Para crear una nueva columna simplemente debemos de asumir que siempre existió.

In [None]:
argo['id'] = argo['file'].str.split('/',expand=True)[1]
argo.head()

Los valores de la columna `ocean` indican el océano en el que el flotador se encuentra. Vamos a seleccionar solo los que se encuentran en el océano pacífico.

Para revisar los valores únicos dentro de la columna usaremos el método `unique` sobre la columna

In [None]:
print(f"La columna file tiene {argo.file.shape} entradas para una cantidad de {argo.id.unique().shape} flotadores unicos")

In [None]:
argo['ocean'].unique()

Para realizar evaluaciones condicionales sobre el dataframe podemos usar el método `query` que facilita muchas operaciones

In [None]:
argo_pacific = argo.query('ocean=="P"').copy()
argo_pacific.head()

Podemos filtrar los datos para quedarnos con los actualizados desde el 18 de setiembre

In [None]:
start_date = pd.to_datetime("2019-09-18")
filtered = argo_pacific.query("date_update>@start_date")
filtered.head()

In [None]:
filtered.plot.scatter(x='longitude', y='latitude')

Como tambien podemos obtener un gráfico de la cantidad de actualizaciones que hubieron por día en todo el globo haciendo uso del método `resample`

In [None]:
argo.resample('D',on='date_update').count()['file'].plot(kind='bar')

o por cada 6h

In [None]:
argo.resample('6h',on='date_update').count()['file'].plot(kind='bar')

Las posibilidades de trabajo son infinitas, consultando la documentación y stackoverflow podemos conseguir la ayuda necesaria para nuestro trabajo

In [None]:
argo.groupby('ocean').resample('D',on='date_update').count()['ocean'].unstack('ocean').plot(kind='bar',stacked=True)

Adicional a las herramientas que nos ofrece pandas, existen paquetes que extienden el funcionamiento como el caso de pandas_profiling que nos ofrece un reporte detallado sobre nuestro DataFrame

In [None]:
import pandas_profiling
argo.profile_report(style={'full_width':True})

## 3.3 Matplotlib
Este paquete es la base de las gráficas en casi todo el ecosistema de Python. Virtualmente, todo tipo de gráfico puede ser realizado usando este paquete, lo unico que varia es la cantidad de tiempo que uno desea invertir en los detalles de cada gráfico.

Para comenzar con los gráficos, primero debemos declarar una figura (canvas) sobre la cual se realizarán los dibujos. Sobre la figura se deben declarar los ejes que servirán para colocar los datos ([ref](https://matplotlib.org/3.1.1/gallery/showcase/anatomy.html))

In [None]:
import matplotlib.pyplot as plt
plt.style.use('default')

In [None]:
%matplotlib inline

In [None]:
x = np.arange(1,100)
y = np.log(x)
fig = plt.figure()
ax = fig.add_subplot('111')
ax.plot(x, y)

Al momento de declarar los ejes se especifica el subplot mediante el texto "111" que indican la cantidad de filas, columnas y a que numero de plot nos referimos

In [None]:
y2 = x**2
fig = plt.figure()
ax = fig.add_subplot('211')
ax.plot(x,y)
ax = fig.add_subplot('212')
ax.plot(x,y2)

Si bien esta sintaxis es familiar a los que han usado MATLAB, la forma _pythonica_ de declarar una imagen y los ejes es usando la función `subplots` que retorna dos valores: una figura y un eje

In [None]:
fig, ax = plt.subplots()
ax.plot(x, y, label='log')
ax.plot(x,y2/1e3, label ='cuadratic')
ax.set_xlabel('x')
ax.set_ylabel('y')
ax.legend()

Matplotlib es super intuitivo, muchas de los métodos para realizar gráficos funcionan sin necesidad de agregar muchos argumentos

In [None]:
a = np.arange(-5,5,0.1)
b = np.arange(10, 20, 0.2)

aa, bb = np.meshgrid(a, b)

c = np.sin(bb / aa)

In [None]:
fig, ax = plt.subplots(ncols=2, nrows=2, dpi=200)

ax[0][0].set_title('pcolormesh')
ax[0][0].pcolormesh(a, b, c)

ax[0][1].set_title('contourf')
ax[0][1].contourf(a, b, c)

ax[1][0].set_title('contour')
ax[1][0].contour(a, b, c)

ax[1][1].set_title('imshow')
ax[1][1].imshow(c)

fig.tight_layout()

In [None]:
arr = np.arange(-2*np.pi,2*np.pi, 0.4)

xx, yy = np.meshgrid(arr,arr)

U = xx**2
V = yy**2
plt.quiver(xx, yy, U, V, U**2+V**2, pivot='middle', cmap=plt.get_cmap('magma'))

In [None]:
plt.streamplot(xx, yy, U, V, color=U**2+V**2, cmap=plt.get_cmap('Blues'))

### Personalizando gráficos

Matplotlib ofrece una serie de estilos que modifican la forma en que se ven nuestros gráficos. Estos estilos vienen junto con nuestra instalación, sin embargo, somos libres de modificar cualquier aspecto del gráfico a nuestro gusto.

**Referencias:**

- https://matplotlib.org/3.1.0/gallery/style_sheets/style_sheets_reference.html

- https://matplotlib.org/3.1.1/tutorials/introductory/customizing.html

In [None]:
plt.style.use('ggplot')
plt.plot(x,y)

In [None]:
plt.style.use('default')
plt.style.use('seaborn')
plt.plot(x, y)

Matplotlib es una de las bases que tiene python para manejar los gráficos sobre la cual se han construido varias librerias que facilitan ciertas operaciones. Por ahora exploraremos un poco sobre como realizar mapas usando Cartopy

## 3.4 Cartopy

Cartopy nos permite realizar mapas en distintos sistemas de coordenadas. Nos permite agregar shapefiles de costa, bordes de paises y más ademas de proyectar nuestros datos acorde al sistema de referencia escogido.

Para usar cartopy solo necesitamos indicarle a nuestra figura de matplotlib la proyección en la que queremos realizar el gráfico

In [None]:
import cartopy.crs as ccrs
plt.style.use('default')

In [None]:
lat = np.arange(-90,90.1,5)
lon = np.arange(-180, 180.1, 5)
lon, lat = np.meshgrid(lon, lat)
data = np.sin(np.abs(lat)*np.pi/180)*np.cos(lon*5)

fig = plt.figure()
ax = fig.add_subplot(111,projection=ccrs.PlateCarree())
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.set_global()
ax.coastlines()

Cartopy provee dos palabras clave: `transform` y `projection`.

- `projection` definira como se verá el gráfico de salida, es la poyección en la que queremos obtener nuestro gráfico.

- `transform` le dice a Cartopy en que sistema de referencia se encuentran nuestros datos.

In [None]:
fig, ax = plt.subplots(subplot_kw={'projection':ccrs.Sinusoidal()})
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.set_global()
ax.coastlines()

In [None]:
fig, ax = plt.subplots(subplot_kw={'projection':ccrs.Orthographic()})
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.set_global()
ax.coastlines()

In [None]:
fig, ax = plt.subplots(subplot_kw={'projection':ccrs.Mollweide()})
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.set_global()
ax.coastlines()

Para una mayor referencia de las proyecciones disponibles, revisar la [documentación](https://scitools.org.uk/cartopy/docs/latest/crs/projections.html) de cartopy

Hasta ahora solo hemos hecho uso de `coastlines` para dibujar las lineas de Costa, ahora veremos como personalizar auna más estos elementos mediante el módulo `feature`.

_Nota_: Cuando se va a usar un `feature` por primera vez (un shapefile a resumidas cuentas), este archivo es descargado desde la base de datos [Natural Earth Data](http://www.naturalearthdata.com/) por lo que puede demorar un poco la primera vez que se realice el gráfico.

In [None]:
import cartopy.feature as cfeature

In [None]:
lat = lat[15:25, 30:50]
lon = lon[15:25, 30:50]
data = data[15:25, 30:50]

In [None]:
fig, ax = plt.subplots(subplot_kw={'projection':ccrs.PlateCarree()})
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.set_global()
ax.add_feature(cfeature.LAND)
ax.add_feature(cfeature.OCEAN)
ax.add_feature(cfeature.COASTLINE)
ax.add_feature(cfeature.BORDERS, linestyle='--')

Los ticks de lat/lon se configuran de la siguente forma.

In [None]:
from cartopy.mpl.ticker import LongitudeFormatter, LatitudeFormatter

fig, ax = plt.subplots(subplot_kw={'projection':ccrs.PlateCarree()})

# Se instancia las funciones que daran formato a las etiquetas
lon_formatter = LongitudeFormatter()
lat_formatter = LatitudeFormatter()

# Se ponen los ticks lat/lon con los intervalos deseados
ax.set_xticks(np.arange(-180,180,20), crs=ccrs.PlateCarree())
ax.set_yticks(np.arange(-90,90,10), crs=ccrs.PlateCarree())

# Se aplica el formato a las etiquetas de los ticks
ax.xaxis.set_major_formatter(lon_formatter)
ax.yaxis.set_major_formatter(lat_formatter)

# Se restringe el área del gráfico para solo incluir la zona de interés
ax.set_extent([-40, 80, -30, 40], crs=ccrs.PlateCarree())

# Se realiza el gráfico junto a los features
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.add_feature(cfeature.LAND)
ax.add_feature(cfeature.OCEAN)
ax.add_feature(cfeature.COASTLINE)
ax.add_feature(cfeature.BORDERS, linestyle='--')

Por defecto estos shapefiles se encuentran a una resolución de 110m con estilos fijos. Si se desea personalizar estos poligonos, deberá crearlos tal como se especifica en la [documentación](https://scitools.org.uk/cartopy/docs/v0.16/matplotlib/feature_interface.html)

In [None]:
hq_border = cfeature.NaturalEarthFeature(
                        category='cultural',
                        name='admin_0_countries',
                        scale='50m',
                        facecolor='black',
                        edgecolor='grey')

In [None]:
from cartopy.mpl.ticker import LongitudeFormatter, LatitudeFormatter

fig, ax = plt.subplots(subplot_kw={'projection':ccrs.PlateCarree()})
ax.contourf(lon,lat,data, transform=ccrs.PlateCarree())
ax.add_feature(hq_border)