# 3. Paquetes útiles

Python extiende sus capacidades mediante la importación de paquetes. Los paquetes en los que nos centraremos ahora serán `numpy`, para el manejo de datos n-dimensionales y operaciones vectorizadas; `pandas`, para el manejo de datos tabulares y series de tiempo; y matplotlib, para realizar gráficos de nuestros datos

## 3.1 Numpy
Numpy es el paquete fundamental de python para cualquier tipo de cálculo científico a realizar. En comparación al módulo `math` de la libreria estandar de Python, `numpy` es capaz de operar sobre arreglos n-dimensionales de manera eficiente. Para más detalles pueden dirigirse a la página oficial de [Numpy](https://numpy.org/).

La estructura básica de Numpy son los `ndarray`, que significa "n dimensional array", los cuales pueden ser construidos de diferentes formas. Revisaremos los métodos más convenientes para crear un `ndarray` y realizar operaciones con ellos

In [None]:
import numpy as np

- ### `np.array`
Es la forma más simple de declarar un arreglo de numpy. Nos solicita como argumento algun elemento que tenga forma de arreglo (como las listas).

In [None]:
datos = [[3, 2, 5, 6, 1, 9, 5],
         [0, -2, 5, 7, 3, 2, 6]]
narr = np.array(datos)
narr

Una vez que tenemos un arreglo de numpy asignado a una variable, podemos obtener las propiedades del arreglo usando `ndim`, `shape`, `size`, `dtype`, entre otros.

In [None]:
narr.ndim, narr.shape, narr.dtype

- ### `np.zeros`, `np.ones`, `np.full`
Estas funciones retornarán arreglos de numpy llenos de zeros (`np.zeros`), unos (`np.ones`) o del numero que quisieramos (`np.full`). Las tres funciones nos solicitan que pasemos las dimensiones del arreglo de salida en forma de una tupla `(nx, ny, nz, ...)`

In [None]:
np.zeros((4, 5))

In [None]:
np.ones((6, 2))

In [None]:
np.full((4, 6), 9)

- ### `np.reshape`
Esta función nos permite cambiar de forma nuestro arreglo mientras que la cantidad de elementos se conserve. Nos pide como argumento la nueva forma para el arreglo.
Para obtener la cantidad de elementos de un arreglo de numpy se usa la propiedad `size`.

In [None]:
A = np.zeros((10,8))
print(f"El arreglo A tiene {A.size} elementos y forma {A.shape}")
B = A.reshape((20,4))
print(f"El arreglo B tiene {B.size} elementos y forma {B.shape}")

- ### `np.arange`
Similar a la función propia de python `range`, `np.arange` nos creará un arreglo de numeros espaciados regularmente dentro de un objeto de numpy. Para hacer uso de la función le podemos proporcionar tres argumentos (start, stop, step) o un solo valor (stop) en donde comenzará el arreglo desde 0 con espaciado 1. El arreglo de salida será 1-dimensional (detalles más adelante)

In [None]:
np.arange(19)

In [None]:
np.arange(2, 100, 2)

In [None]:
np.arange(-90, 90, 0.125) # el espaciado puede ser decimal

- ### `np.linspace`
Similar a `np.arange`, tambien creará una serie de elementos en un objeto de numpy, la diferencia está en que generará la cantidad de elementos que solicitemos espaciados regularmente, sin necesidad de especificar los _step_

In [None]:
np.linspace(10, 15, 7) # Queremos 7 numeros que esten entre 10 y 15

In [None]:
np.linspace(-15,15,30) # 30 elementos entre -15 y 15

- ### `np.mesgrid`
Esta función generará un malla proveniente de dos vectores bases. Esto es util cuando se quiere generar pares ordenados de lon/lat.

In [None]:
x = np.arange(2, 6, 0.5)
y = np. arange(10, 18, 2)

print(f"x es : {x}")
print(f"y es : {y}")

xx, yy = np.meshgrid(x, y)

In [None]:
xx

In [None]:
yy

### Operaciones entre arreglos de numpy
Desde las operaciones básicas hasta las más complejas, numpy hace uso del _broadcasting_ el cual permite operar en arreglos de distintas dimensiones, replicando el arreglo de menor dimension hasta emparejar el arreglo de mayor dimensión.

#### ⚠ Cuidado con los arreglos 1-dimensionales 💀
Numpy tiene una particularidad cuando empezamos a tratar datos de varias dimensiones. Para entender esto, vamos a verificar las dimensiones de un arreglo generado por `np.arange`

In [None]:
C = np.arange(10)
print(f"El arreglo C es {C}\n y tiene forma {C.shape}")

A simple vista parece un vector que tiene 1 fila y 100 columnas, i.e. forma (1,100), pero al verificar la forma usando `shape` vemos que numpy lo reconoce como un arreglo de forma (100,). El conteo de dimensiones muestra que nuestro arreglo tiene 1 dimensión

In [None]:
C.ndim

Esto puede introducir ciertos errores al momento de realizar operaciones con arreglos de más dimensiones o puede otorgar resultados inesperados. Un ejemplo sería el calculo de la transpuesta para nuestro arreglo C. Lo que se esperaría es que nos retorne una columna, sin embargo esto no sucede

In [None]:
C.T

Para evitar este tipo de situaciones, nunca esta de más pasar un `np.reshape` con la forma del arreglo que se espera.

In [None]:
C_arr = C.reshape((1,10))
print(C_arr)
print(f"El arreglo C_arr tiene forma {C_arr.shape}")

In [None]:
C_arrT = C_arr.T
print(C_arrT)
print(f"La transpuesta de C_arr tiene forma {C_arrT.shape}")

### _Broadcasting_

Numpy nos permite realizar operaciones entre arreglos de diferentes dimensiones en muchos casos. Esto se puede apreciar en la siguiente imagen
![Broadcasting](../Images/npbroadcasting.png)

_[fuente](https://mathematica.stackexchange.com/questions/99171/how-to-implement-the-general-array-broadcasting-method-from-numpy/99553)_


#### Puntos a tener en cuenta
- El _broadcasting_ compara dimension por dimension de derecha a izquierda
- Cuando una dimensión tiene tamaño 1, este elemento es replicado hasta ser equivalente con la dimension comparada
- Una buena implementación en las operaciones de numpy evita el uso de bucles

In [None]:
A = np.arange(6).reshape((1,6))
B = np.arange(4).reshape((4,1))
print(A)
print(f"A tiene forma {A.shape}")
print(B)
print(f"B tiene forma {B.shape}")

In [None]:
C = A + B
print(C)
print(f"C tiene forma {C.shape}")

In [None]:
# Para casos n-dimensionales
A = np.random.rand(20,40,6,23)
B = np.random.rand(1,6,1)

C = A*B
print(f"A tiene forma {A.shape}")
print(f"B tiene forma {B.shape}")
print(f"C tiene forma {C.shape}")

Tener en cuenta las dimensiones tienen que se compatibles, esto quiere decir que al momento de hacer el emparejamiento dimensión por dimensión las dimensiones emparejadas deben ser iguales o al menos una tiene que ser 1

## 3.2 Pandas
Pandas es la herramienta por excelencia de python para operar sobre data tabular y manejar series de tiempo. Para poder usar este paquete de manera eficiente, tenemos que entender las dos estructuras básicas de pandas: las series y los _dataframes_

In [None]:
import pandas as pd

## 3.3 Matplotlib
Este paquete es la base de las gráficas en casi todo el ecosistema de Python. Virtualmente, todo tipo de gráfico puede ser realizado usando este paquete, lo unico que varia es la cantidad de tiempo que uno desea invertir en los detalles de cada gráfico.

Para comenzar con los gráficos, primero debemos declarar una figura (canvas) sobre la cual se realizarán los dibujos. Sobre la figura se deben declarar los ejes que servirán para colocar los datos

In [None]:
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
x = np.arange(1,100)
y = np.log(x)
fig = plt.figure()
ax = fig.add_subplot('111')
ax.plot(x, y)

Al momento de declarar los ejes se especifica el subplot mediante el texto "111" que indican la cantidad de filas, columnas y a que numero de plot nos referimos

In [None]:
y2 = x**2
fig = plt.figure()
ax = fig.add_subplot('211')
ax.plot(x,y)
ax = fig.add_subplot('212')
ax.plot(x,y2)