# NumPy

- Paquete FUNDAMENTAL para cómputo científico en Python
- Provee un ***multidimensional array*** y derivados
- Una variedad de métodos y funcionalidades para ***súper rapidisísimas* operaciones** con los *arrays*
    - Para darnos una idea: **NumPy** es la abreviatura de ***"Numerical Python"***.
      
## **[`ndarray`](https://numpy.org/devdocs/reference/generated/numpy.ndarray.html#numpy.ndarray)** --> El objeto *core* de NumPy

- Es verdad que es un "contenedor" más como lo son las listas, diccionarios, tuplas,... pero
  
![it's so more much than that!](../www/love-actually-mr-bean.gif "it's so more much than that!")

- Una de las tantas bellezas que tiene este objeto es que, la gran mayoría de las operaciones luce igual sin importar cuántas dimensiones tenga el arreglo
- Algunas consideraciones aparte para:
    - $0D$ *array* es para los escalares
    - $1D$ *array* es para arreglos unidimensionales como un "vector" (de R) o una fila de una tabla o una columna
    - $2D$ *array* es para matrices... antes existía una clase $matrix$ en *Numpy*, pero ha sido deprecada...
- $3D$ *"y más allá" arreglos...*

### ¿Por qué no quedarnos con lo que nos da Python?

- Las listas son excelentes contenedores para un uso general
- Pueden ser **"heterogéneas"**
- Son bastantes rápidas cuando se usan para ejecutar operaciones individuales para un puñado de elementos.
- Otros contenedores podrían ser más apropiados que otros dependiendo de unos tipos de datos u otros
- **NumPY SE VA A LOS CIELOS** cuando lidiamos con una **gran cantidad de datos** ***"homogéneos"***
    - Mejora en velocidad,
    - Reduce consumo de memoria
    - Ofrece una sintaxis de alto novel para desempeñar tareas que comunmente procesamos
 
- Pero, todo hay que decirlo:
    - Tienen un tamaño fijo, no pueden crecer dinámicamente como las listas de python
    - Cambiar el tamaño de un `ndarray` creará un nuevo arreglo y borrará el original
    - Como ya mencionamos antes, se requiere que todos los elementos de un `ndarray` sean del mismo tipo de dato y, por lo mento, ocuparán el mismo espacio en memoria, con la excepeción de los arreglos con `dtype` `objects` y que, por lo tanto, se permite que cada elemento tengan diferentes tamaños
 
- Si queremos desarrollar código y/o paquetería, usar los `ndarray` puede ser una gran idea. Tan es así que hoy por hoy, una cada vez mayor cantidad de paquetes de python para usos matemáticos y/o científicos, están basados en ***array* de NumPy** o, al menos, usándolos como *inspiración* y/o se optimizan al utilizarlos...
    - pandas
    - matplotlib
    - seaborn
    - PyTorch
    - TensorFlow
    - Keras,...

### Por ejemplo... *versus* con un poco de aritmética...

- `list` + escalar?
- `list` + `list`?
- `list`* escalar?
- `list` * `list`?

Cómo lograrlo con `ndarray`?

In [None]:
a = [1,2,3]
a

In [None]:
b = [4,5,6]
b

### Suma con escalar

In [None]:
a+3

In [None]:
b+5

- y entonces???
- Y no hay forma de hacerlo desde Python "solito"?
- Les suena [**List Comprehensions**](https://github.com/dsFMAT/introduction_to_python/blob/main/Notebooks_Clases/005_%20Loops.ipynb)? (**¡¡GRACIAS PROFE HENRRY!!**)

In [None]:
import numpy as np # como nos enseñó el Profe Henrry a importar módulos!!! GRACIAS PROFE!!!
a_np = np.array(a)
b_np = np.array(b)

- Mientras tanto...

![Mientras tanto...](../www/star-wars.gif)

In [None]:
a_np +3

In [None]:
b_np+3

In [None]:
[x+3 for x in a]

In [None]:
[x+5 for x in b]

- Cuál les gusta más?

### Multiplicación de cada elemento por un escalar

In [None]:
a*3

In [None]:
b*5

- Eso queremos?
- ¿Cómo hacemos para que cada elemento se multiplique por el escalar y no que se repitan los elemento N veces?
- ¿Cómo lo harían con **List Comprehensions**?

- Con **numpy**:

In [None]:
a_np*3

In [None]:
b_np*5

In [None]:
[x*3 for x in a]

In [None]:
[x*5 for x in b]

### Suma entre elementos de dos arreglos

In [None]:
a+b

In [None]:
a_np+b_np

In [None]:
[x+y for x,y in zip(a,b)]

### Multiplicación entre elementos de dos arreglos

In [None]:
a*b

In [None]:
a_np*b_np

¿**List Comprehensions**?

## El otro lado de la moneda...

Se acuerdan que las listas son como una especie de Barneybolsa?

In [None]:
list_barney_bolsa = [[1,23],'la ',('barni',' bolsa'),[{'te':'ayudará','en ella':'todo encontrarás'}]]
list_barney_bolsa

- Funcionaría con las `tuples`?

In [None]:
tuple_barney_bolsa = ([1,23],'la ',('barni',' bolsa'),[{'te':'ayudará','en ella':'todo encontrarás'}])
tuple_barney_bolsa

- Y con los diccionarios, ni qué decir...

In [None]:
dict_barney_bolsa = {}
for index, element in enumerate(list_barney_bolsa):
    dict_barney_bolsa['element_%s'%index] = element
dict_barney_bolsa

- Y, ahora, qué pasaría desde **NumPy** con los `ndarray`?

In [None]:
tuple_barney_bolsa = ([1,23],'la ',('barni',' bolsa'),[{'te':'ayudará','en ella':'todo encontrarás'}])
tuple_barney_bolsa

- Y ahora...
- Recordemos que parte de lo que más importante de NumPy es su alta eficiencia al momento de procesar tareas
- Para lograrlo, en parte, es por ello por lo que "piden tantos requisitos"... como, por ejemplo, que los elementos sean de un tipo
- Hay ciertos casos en donde pueden no ser idénticos, pero se necesita de que guarden cierta armonía que les permita ser coercionados a un mismo tipo

### Más golpes al corazón </3...

In [None]:
list_str = ['avinash','jay']
list_str* 2

In [None]:
np_str = np.array(list_str)
np_str * 2

- Ni con eso, *strings*, puede Numpy????
- Podemos hacer algo al respecto?
- Pilas con el `dtype`
- Numpy lo "induce" pero podemos especificarlo con este argumento

In [None]:
np_str = np.array(list_str, dtype=object)
np_str* 2

- Aún así, fijémonos en la eficiencia que consigue NumPy en el uso de la memoria:

In [None]:
try:
    import pympler
except ImportError as e:
    !pip install pympler

In [None]:
from pympler.asizeof import asizesof

In [None]:
ar1 = np.array(['this is a string', 'string']*1000, dtype=object)
ar2 = np.array(['this is a string', 'string']*1000, dtype=str)
asizesof(ar2)[0]/asizesof(ar1)[0]  # 7.944444444444445

- También podríamos usar `np.char.multiply`

In [None]:
np.char.multiply(ar2, 2)

- Chequemos los tiempos de ejecución

In [None]:
import timeit
setup = "import numpy as np; from __main__ import ar1, ar2"
t1 = min(timeit.repeat("ar1*2", setup, number=1000))
t2 = min(timeit.repeat("np.char.multiply(ar2, 2)", setup, number=1000))
t2 / t1   # 6.611172061718781

## Un pequeño resumen

Los arreglos de NumPy son:
- Más compactos, especialmente cuando hay más de una dimensión
- Más rápido que las listas cuando la operación puede ser vectorizada
- Considerar que son un poco más lentas que las llistas cuando se agregan elementos al final
- Usualmente homogéneos: Pueden trabajar más rápido sólo cuando se tienen elementos de un tipo