<img src="https://user-images.githubusercontent.com/7065401/39118381-910eb0c2-46e9-11e8-81f1-a5b897401c23.jpeg"
    style="width:300px; float: right; margin: 0 30px 30px 30px;"></img>

NumPy es una biblioteca muy utilizada en Python para
trabajar con vectores multidimensionales (arreglos, matrices,
etc.) que ofrece también una gran colección de funciones matemáticas de alto nivel para operar con ellos. [Documentacion](https://pypi.org/project/numpy/)

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)

## 1.1 Release

In [1]:
import numpy as np

In [2]:
np.__version__

'1.26.4'

## 1.2 NumPy Arrays

El punto de entrada a NumPy es la estructura array, que
nos permite manejar matrices de cualquier dimensión (incluso
de una). Estos arreglos, a diferencia de las listas integradas en
el lenguaje python, son homogéneos: todos sus elementos deben ser
del mismo tipo (lo cual es clave en la eficiencia y potencia de
cálculo de esta biblioteca).

In [3]:
vector = np.array([0, 4, 5, 6, 7])


In [4]:
vector

array([0, 4, 5, 6, 7])

In [5]:
type(vector)

numpy.ndarray

In [6]:
# a partir de una lista de numeros
lista = [ 4.6, 5.5, 7.9]

numeros = np.array(lista)
numeros

array([4.6, 5.5, 7.9])

NumPy nos ofrece formas rápidas de crear arreglos de distintos tamaños, por ejemplo con los
números secuenciales como el conocido range, pero también inicializados con ceros y con unos
(lo cual es muy normal, ya que son la identidad aditiva y multiplicativa respectivamente):

In [7]:
lista = list(range(10))
lista

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]

In [8]:
# arange
np.arange(1, 20, 0.5)

array([ 1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,  6. ,
        6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. , 10.5, 11. , 11.5,
       12. , 12.5, 13. , 13.5, 14. , 14.5, 15. , 15.5, 16. , 16.5, 17. ,
       17.5, 18. , 18.5, 19. , 19.5])

In [9]:
# ones
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [10]:
# zeros
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [11]:
type(np.zeros(10)[0])

numpy.float64

In [12]:
vector = np.ones(10)

In [13]:
vector

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [14]:
type(vector[0])

numpy.float64

Vemos que por defecto NumPy crea todos los arreglos como floats. Como decíamos antes,
todos los elementos tienen que ser del mismo tipo, pero tenemos control sobre cual tipo es ese;
por ejemplo, si vamos a trabajar con enteros:

In [16]:
vector = np.ones(5, dtype=np.int32)
vector

array([1, 1, 1, 1, 1], dtype=int32)

⁉️ -- Preguntas??

Hagamos una comparación entre las listas integradas y este nuevo tipo de dato, para empezar
a notar las diferencias. Supongamos que queremos trabajar sobre un millón de números al mismo
tiempo (pero por simplificación, usemos sólo 10… para el caso es lo mismo). Entonces
tenemos nuestro millón de números:

In [17]:
clasica = [0, 1, 2, 3,4, 5, 6, 7, 8, 9]

lista_clasica = [ x**2 for x in clasica]
lista_clasica

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

Esto, en numpy sería:

In [18]:
np.array([ x**2 for x in clasica])

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

Ahora, supongamos que queremos los cuadrados de esos números.Podemos hacer una list comprehension.

Ingenuamente, intentamos lo mismo para ambas estructuras.

Clasica

numpy - 1 version

numpy - version final

Y acá es donde descubrimos el inmenso poder de NumPy: nos permite procesar los arreglos directamente, manejando simultaneamente todos sus elementos internos.

En el ejemplo que acabamos de mostrar, Python tiene que recorrer el iterable, ir recibiendo uno por uno los elementos, elevar ese elemento al cuadrado, e irlo agregando a una lista. Con diez elementos no pasa nada, pero recordemos, nuestro ejemplo imaginario tiene un millón de
números.

In [19]:
vector = np.arange(1,10)
vector

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
vec_2 = vector ** 2

In [22]:
vec_2

array([ 1,  4,  9, 16, 25, 36, 49, 64, 81])

Acá tenemos en Python solamente una llamada a una función que estará implementada en
C, Fortran o algún lenguaje de bajo nivel, y fuertemente optimizada. Y se realiza todo el procesamiento necesario solamente con esa llamada a función, obteniendo efectivamente performances
comparables con esos lenguajes de más bajo nivel. De cualquier manera, la idea de usar NumPy
es justamente despreocuparnos sobre cómo está implementada y optimizada, y enfocarnos en
usar la biblioteca correctamente, de la misma manera que al usar Python en sí por ejemplo nos
despreocupamos sobre la administración dinámica que hace de la memoria.

⁉️ -- Preguntas??

Como ejercicio, comparemos las performances de los dos casos de nuestro ejemplo anterior

In [23]:
def f():
  clasica = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
  cuads = [x ** 2 for x in clasica]

In [24]:
def g():
  nueva = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])
  cuads = nueva ** 2

In [25]:
print("Método clásico:")
%timeit f()

Método clásico:
895 ns ± 234 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [26]:
print("Usando numpy:")
%timeit g()

Usando numpy:
2.05 µs ± 702 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


¡Epa! Vemos que es más lento en NumPy, ¿cómo puede ser eso?

Veamos un ejemplo más real, haciendo lo mismo pero con un millón de números:

In [27]:
def f():
  clasica = range(1_000_000)
  cuads = [x ** 2 for x in clasica]

In [28]:
def g():
  nueva = np.arange(1_000_000)
  cuads = nueva ** 2

In [29]:
print("Método clásico:")
%timeit f()

Método clásico:
92.8 ms ± 19.1 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [30]:
print("Usando numpy:")
%timeit g()

Usando numpy:
1.87 ms ± 126 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)


Y encontramos que para este caso más real, NumPy es más de cien veces más rápido.

Entonces, es responsabilidad nuestra saber cuando utilizar esta biblioteca. Por un lado, no vale la pena para algunos pocos datos, pero especialmente tenemos que tener el cuidado de NO caer en la tentación de procesar los arreglos “a mano en Python”, sino siempre utilizar las herramientas correctas de NumPy.

⁉️ -- Preguntas??

¿Tenemos que sumar los números usando el sum de Python? No. ¿Sacar el máximo usando max? Tampoco. ¿Y si queremos aplicar alguna función matemática? De nuevo, usar las herramientas de NumPy:

In [33]:
# datos ejemplo
arr = np.array([1, 2, 3, 4])

In [34]:
# calculamos el max
arr.max()

4

In [35]:
# la suma de todos los elementos del array
arr.sum()

10

In [36]:
# sin
np.sin(arr)

array([ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ])

In [37]:
np.max(arr)

4

⁉️ -- Preguntas??

## 1.3 Multidimensionalidad

Hasta ahora sólo armamos un arreglo de una sola dimensión, pero como decíamos arriba, NumPy permite que sean de varias dimensiones.
Incluso esas dimensiones pueden no ser iguales. Armemos por ejemplo una matriz de dos dimensiones que nos quede como una “tabla rectangular”:

In [38]:
# array de 2 filas y 5 columnas
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

Para acceder a un elemento de la matriz

In [39]:
# definir una matriz y acceder a una posiscion
matriz = np.array([[1, 2, 3], [4, 5, 6]], np.int32)
matriz[0, 2]


3

También, podemos cambiarle la forma. Armemos la misma matriz pero con números secuenciales:

In [40]:
lineal = np.arange(20)
lineal

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16,
       17, 18, 19])

In [41]:
# ver dimensiones
lineal.shape

(20,)

In [42]:
#  cambia la forma/dimensiones
matriz = lineal.reshape(2,10)
matriz

array([[ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 15, 16, 17, 18, 19]])

In [43]:
matriz.shape

(2, 10)

También podemos preguntar la cantidad de dimensiones, y el tamaño del arreglo

In [44]:
lineal.ndim

1

In [45]:
matriz.ndim

2

In [46]:
lineal.size

20

In [47]:
matriz.size

20

In [48]:
matriz.dtype

dtype('int64')

In [49]:
# cada numero 64 bits / 8 = 8 bytes a byte son 8 bits 8x 20 = 160
matriz.nbytes

160

In [50]:
matriz = matriz.astype(np.int32)

In [51]:
matriz.nbytes

80

⁉️ -- Preguntas??

## 1. 4 Indexacion y Slicing

Cuando hacemos slicing de arreglos de Numpy tenemos que tener un gran detalle en cuenta: a diferencia del mismo procedimiento en las listas integradas de Python, donde efectivamente tenemos una copia de la lista original, en el caso de NumPy lo que obtenemos es una “vista” del
arreglo original.
Esta vista es afectada si modificamos el arreglo original, y viceversa. Esto es algo que hace NumPy en pos de la velocidad de procesamiento, ya que evita estar copiando objetos en memoria todo el tiempo.

In [52]:
l1 = [0, 1, 2, 3,4]

In [54]:
l2 = l1[:2]
l2

[0, 1]

In [55]:
l1[0] = 10
l1

[10, 1, 2, 3, 4]

In [56]:
l2

[0, 1]

Y ahora el caso de los arreglos de NumPy, con el comportamiento de las vistas:

In [60]:
arr1 = np.arange(10)
arr1

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [61]:
arr2 = arr1[:2]
arr2

array([0, 1])

In [62]:
arr1[0] = 90
arr1

array([90,  1,  2,  3,  4,  5,  6,  7,  8,  9])

In [63]:
arr2

array([90,  1])

⁉️ -- Preguntas??

### 1.5 Indexacion avanzada

NumPy ofrece una funcionalidad interesante, ¡podemos también indexar usando otros arreglos! Esto explota en distintas funcionalidades que vemos en esta sección.
Si el arreglo-índice tiene números, esos números indicarán la posición de los elementos que queremos del arreglo que estamos indizando.
En el siguiente ejemplo usamos esta funcionalidad para sacar los cuadrados de las posiciones
2, 3, 15 y 7:

In [64]:
cuadrados = np.arange(20) ** 2
cuadrados

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121, 144,
       169, 196, 225, 256, 289, 324, 361])

In [65]:
indice = [2, 3, 15, 7]
cuadrados[indice]

array([  4,   9, 225,  49])

Los indices, pueden ser repetidos

In [66]:
vec = cuadrados[[0, 1, 2, 3, 2, 1, 0]]

In [67]:
vec

array([0, 1, 4, 9, 4, 1, 0])

Por otro lado, si el arreglo-índice está compuesto por booleanos, los mismos indicarán qué elementos elegimos del arreglo que estamos indexando (en este caso el índice tiene que tener el mismo largo que el arreglo indexado).

In [68]:
nros = np.array([0, 1, 2, 3, 4])
indice = [True, False, False, True, False]
nros[indice]

array([0, 3])

Esto es muy útil para elegir elementos de un arreglo en función de si cumplen alguna condición (lo cual en muchos contextos se denomina máscara).

Veamos un ejemplo donde tenemos muchos números y queremos calcular el logaritmo sólo de los positivos (claro que lo podríamos hacer con una list comprehension eliminando a los negativos y luego calculando el logaritmo de cada uno, pero recordemos que la idea es siempre quedarnos
adentro de NumPy, para aprovechar al máximo la potencia de esta biblioteca).


In [69]:
numeros = np.random.randint(-10, 10, 20)
numeros

array([  5,   0,  -2,   0,   7,  -2,  -2,   4,   1,   8, -10,  -8,   0,
        -8,   7,  -1,   8,  -7,   9,   2])

In [73]:
5 > 5

False

In [71]:
positivos = numeros > 0
positivos

array([ True, False, False, False,  True, False, False,  True,  True,
        True, False, False, False, False,  True, False,  True, False,
        True,  True])

In [74]:
numeros_positivos = numeros[positivos]
numeros_positivos

array([5, 7, 4, 1, 8, 7, 8, 9, 2])

In [75]:
np.log(numeros_positivos)

array([1.60943791, 1.94591015, 1.38629436, 0.        , 2.07944154,
       1.94591015, 2.07944154, 2.19722458, 0.69314718])

⁉️ -- Preguntas??

NumPy también nos da mecanismos para trabajar con arreglos correlacionados (esto es, dos o más arreglos donde cada elemento de un arreglo tiene una relación con el elemento de la misma posición en los otros arreglos).
Por ejemplo, podemos tener unas mediciones para graficar, con los valores del eje x en un arreglo y los correspondientes del eje y en otro. Por algún motivo necesitamos ordenar los puntos del eje x, pero obviamente debemos mantener la relación con los valores correspondientes del eje y.
Para ello usaremos la función np.argsort, que nos devuelve un arreglo-índice que ordenaría el arreglo indicado, y luego usamos ese índice con ambos arreglos x e y:

In [77]:
x = np.array([7, 3, 5, 9, 0, 6, 4, 1, 2, 8])
y = np.array([-8, 1, -3, -2, 3, 6, 5, -3, 2, 9])

In [79]:
indice = np.argsort(x)
print(f"indice: {indice}")

indice: [4 7 8 1 6 2 5 0 9 3]


In [80]:
sorted_x = x[indice]
sorted_y = y[indice]

print(sorted_x)
print(sorted_y)

[0 1 2 3 4 5 6 7 8 9]
[ 3 -3  2  1  5 -3  6 -8  9 -2]


⁉️ -- Preguntas??

### 1.6 Vectores y Matrices

1.6.1 Multiplicar elementos entre si

In [81]:
numeros = np.array([0, 1, 2, 3, 4])
numeros * 3

array([ 0,  3,  6,  9, 12])

**Broadcasting**

Broadcasting es la capacidad de NumPy para realizar operaciones matemáticas entre arrays de diferentes formas (shape), sin necesidad de copiarlos o expandirlos manualmente.

 Sumar un escalar a un array

In [82]:
a = np.array([1, 2, 3])
b = 2
resultado = a + b
print(resultado)

[3 4 5]


Sumar un vector columna a una matriz

In [83]:
A = np.array([[1, 2, 3], [4, 5, 6]])
A

array([[1, 2, 3],
       [4, 5, 6]])

In [84]:
B = np.array([[10], [20]])
B

array([[10],
       [20]])

In [85]:
resultado = A + B
print(resultado)

[[11 12 13]
 [24 25 26]]


Multiplicación entre un vector fila y un vector columna

In [86]:
fila = np.array([1, 2, 3])
fila

array([1, 2, 3])

In [87]:
columna = np.array([[1], [2]])
columna

array([[1],
       [2]])

In [88]:
# 1, 2 3
# 1, 2, 3
resultado = columna * fila
print(resultado)

[[1 2 3]
 [2 4 6]]


1.6.2 Multiplicacion de matrices

Si multiplicamos una matriz por un vector, la regla es que el largo del vector tiene que coincidir con la cantidad de columnas de la matriz, y el resultado será un vector de largo igual a la
cantidad de filas de la matriz, y en cada posición la suma del producto los escalares del vector y
esa fila de la matriz.

>El numero de columnas de la matriz A (MxY) tiene que ser igual al numero de
>filas de la matriz B (YxN)

El resultado es una matriz de M x N

In [89]:
A = np.array([[1, 2], [3, 4]])
B = np.array([[10, 20], [1, 2]])

In [90]:
A

array([[1, 2],
       [3, 4]])

In [91]:
B

array([[10, 20],
       [ 1,  2]])

In [92]:
D = A.dot(B)
D

array([[12, 24],
       [34, 68]])

In [93]:
# Otra forma
A @ B

array([[12, 24],
       [34, 68]])

In [94]:
# no cumple columnas x filas
c = np.array([1, 2])
c

array([1, 2])

In [96]:
d = np.array([1, 2, 3])
d

array([1, 2, 3])

In [97]:
c.dot(d)

ValueError: shapes (2,) and (3,) not aligned: 2 (dim 0) != 3 (dim 0)

In [98]:
B

array([[10, 20],
       [ 1,  2]])

In [99]:
# matriz traspuesta  --- invierte o cambie filas por columnas
B.T

array([[10,  1],
       [20,  2]])

1.6.3 Estadisticas

In [107]:
# datos
a = np.array([1, 2, 3, 4])

In [108]:
a.sum()

10

In [109]:
a.mean()

2.5

In [110]:
a.var()

1.25

In [111]:
a.max()

4

In [112]:
a.min()

1

In [113]:
np.median(a)

2.5

## Uso de Memoria

<img src="https://docs.google.com/drawings/d/e/2PACX-1vTkDtKYMUVdpfVb3TTpr_8rrVtpal2dOknUUEOu85wJ1RitzHHf5nsJqz1O0SnTt8BwgJjxXMYXyIqs/pub?w=726&h=396" />

In [114]:
import sys

### int, floats

In [115]:
# Un entero en Python es > 24bytes
sys.getsizeof(1)

28

In [116]:
# Un float en Python
sys.getsizeof(1.2)

24

In [117]:
# En NumPy el tamaño es menor
np.dtype(int).itemsize

8

In [118]:
# En NumPy el tamaño es menor
np.dtype(np.int8).itemsize

1

![purple-divider](https://user-images.githubusercontent.com/7065401/52071927-c1cd7100-2562-11e9-908a-dde91ba14e59.png)