In [30]:
import sys

import numpy as np

# Creación de numpy arrays

In [82]:
array_1d = np.array([4,5, 3])
type(array_1d)

numpy.ndarray

In [85]:
array_1d.shape

(3,)

In [84]:
array_1d.ndim

1

In [106]:
matriz = np.array([
    [ 1,2, 1 ],
    [5, 43, 5]
])

matriz

array([[ 1,  2,  1],
       [ 5, 43,  5]])

In [91]:
matriz.shape

(2, 3)

In [92]:
matriz.ndim

2

`np.eye` crea una matriz identidad de tamaño 3x3

In [93]:
np.eye(3)

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

`np.zeros` crea un array con todos los valores a 0

In [95]:
np.zeros((3,2))

array([[ 0.,  0.],
       [ 0.,  0.],
       [ 0.,  0.]])

`np.ones` crea un vector de longitud 3 inicializado con todos los valores 1 (${\vec {1}}$)

In [96]:
np.ones(3)

array([ 1.,  1.,  1.])

`np.random` produce un array con valores aleatorios en el intervalo [0, 1)

In [99]:
np.random.random((2,3))

array([[ 0.07290896,  0.8087463 ,  0.42166986],
       [ 0.60387514,  0.33801448,  0.9591487 ]])

podemos leer tambien texto y convertirlo en un np.array

In [101]:
!cat np_text.txt

1,2,3
43, 2,3
34,1,1
0,1,1

In [105]:
np_text = np.genfromtxt("np_text.txt", delimiter=",")
np_text

array([[  1.,   2.,   3.],
       [ 43.,   2.,   3.],
       [ 34.,   1.,   1.],
       [  0.,   1.,   1.]])

# Ventajas de np.array versus lists

In [5]:
array_1d = np.array([1,2,3])

In [7]:
array_1d.shape

(3,)

In [33]:
lista_2d = [[1222,2222,2223], [5,23,40004]]

array_2d = np.array([[1222,2222,2223], [5,23,40004]])

print("Tamaño de la lista en memoria: {} bytes".format(sys.getsizeof(lista_2d)))
print("Tamaño del numpy array en memoria: {} bytes".format(sys.getsizeof(array_2d)))

Tamaño de la lista en memoria: 80 bytes
Tamaño del numpy array en memoria: 160 bytes


No obstante, cuando trabajamos con cantidades grandes, numpy empieza a funcionar mejor

In [35]:
big_list = list(range(100000000))
big_array = np.array(range(100000000))

print("Tamaño de la lista en memoria: {} bytes".format(sys.getsizeof(big_list)))
print("Tamaño del numpy array en memoria: {} bytes".format(sys.getsizeof(big_array)))

Tamaño de la lista en memoria: 900000112 bytes
Tamaño del numpy array en memoria: 800000096 bytes


`%%timeit` es un magic de jupyter que evalua el tiempo que tarda una celda en computar, al pasarle el parámetro -n=10 le decimos que queremos que  mida el tiempo corriendo el código 10 veces

In [76]:
%%timeit -n 10
sum(range(100000000))

10 loops, best of 3: 1.71 s per loop


In [77]:
%%timeit -n 10
np.sum(np.arange(100000000))

10 loops, best of 3: 170 ms per loop


Vemos que la operación con np.arrays es 10x más rápida

Para poder utilizar todo el potencial de utilizacion numerica de numpy, todos los elementos del numpy array tienen que ser del mismo tipo, si no lo son, numpy intenta convertir los elementos a un sólo tipo. Numpy hace eso para poder hacer operaciones vectorizadas.

In [79]:
np.array([1.0, 5.4])

array([ 1. ,  5.4])

In [78]:
np.array([1, 3.9])

array([ 1. ,  3.9])

hacemos `dtype` para ver el tipo de datos que almacena el array.

In [80]:
np.array([1, 3.9]).dtype

dtype('float64')

In [21]:
np.array([1, "1"])

array(['1', '1'], 
      dtype='<U21')

Si no puede optimizar un array, numpy lo creara con el tipo `object`, en el que trabajara simplemente con objetos de python.

In [9]:
from datetime import datetime

np.array([1, datetime.utcnow()])

array([1, datetime.datetime(2017, 5, 13, 11, 13, 24, 114279)], dtype=object)

In [67]:
%%timeit
["{}".format(i) for i in range(100000000)]

1 loop, best of 3: 28 s per loop


In [61]:
f = np.vectorize(lambda x: "{}".format(x))

In [68]:
%%timeit
f(np.arange(100000000))

1 loop, best of 3: 45.4 s per loop


In [65]:
%%timeit
["{}".format(i) for i in np.arange(100000000)]

1 loop, best of 3: 45.4 s per loop


# Seleccion por secciones y por indices (slicing e indexing)

In [148]:
matriz_34 = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
matriz_34

array([[ 1,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

obtenemos la primera fila igual que con una lista normal

In [149]:
matriz_34[0]

array([1, 2, 3, 4])

seleccionamos la 1 y 2 fila

In [150]:
matriz_34[:2]

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

Seleccionamos el 2 elemento de cada fila (o sea, la segunda columna de la matriz)

In [151]:
matriz_34[:,1]

array([ 2,  6, 10])

al seleccionar secciones no obtenemos copias, sino referencias al mismo array

In [152]:
seccion = matriz_34[:2,:]
seccion

array([[1, 2, 3, 4],
       [5, 6, 7, 8]])

In [153]:
print(matriz_34[0,1])
seccion[0, 0] = 0
matriz_34

2


array([[ 0,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

Sin embargo, al seleccionar un elemento esto no pasa

In [154]:
seleccion = matriz_34[1,3]
print(seleccion)
seleccion = 100
matriz_34

8


array([[ 0,  2,  3,  4],
       [ 5,  6,  7,  8],
       [ 9, 10, 11, 12]])

# Filtrado

In [163]:
matriz_32 = np.array([[1, 4], [2, 4], [5, 0]])
matriz_32

array([[1, 4],
       [2, 4],
       [5, 0]])

In [170]:
indice_fitrado = (matriz_32 >= 2)
indice_fitrado

array([[False,  True],
       [ True,  True],
       [ True, False]], dtype=bool)

In [171]:
matriz_32[indice_fitrado]

array([4, 2, 4, 5])

## Aritmetica con numpy arrays

In [173]:
array1 = np.array([[2,3],[0,1]])
array2 = np.array([[23,6],[0,42]])

print(array1)
print(array2)

[[2 3]
 [0 1]]
[[23  6]
 [ 0 42]]


suma elemento a elemento

In [174]:
array1 + array2

array([[25,  9],
       [ 0, 43]])

multiplicación elemento a elemento

In [175]:
array1 * array2

array([[46, 18],
       [ 0, 42]])

Desde python 3.5, podemos usar el simbolo `@` para indicar una multiplicación de matrices (para versiones anteriores se usa la funcion `dot`

In [177]:
array1 @ array2

array([[ 46, 138],
       [  0,  42]])

equivale a 

In [180]:
array1.dot(array2)

array([[ 46, 138],
       [  0,  42]])

# Links

https://docs.scipy.org/doc/numpy-dev/user/quickstart.html

https://www.quantopian.com/posts/quantopian-lecture-series-introduction-to-numpy

https://www.datacamp.com/community/tutorials/python-numpy-tutorial#gs.HwYuvYI