# Introducción a Numpy

Una de las grandes carencias de Python es que no tiene arrays y las listas no son eficientes para trabajar con grandes cantidades de datos. Numpy es la biblioteca que permite la gestión eficiente de arrays multidimensionales. Además proporciona distintas utilidades relacionadas con el algebra lineal, la generación de números aleatorios, la transformada de Fourier, etc.

http://www.numpy.org/

In [75]:
import numpy as np

# convertir una lista en un array
l = [1, 2, 3, 4, 5, 6, 7, 8, 9]
x = np.array(l)
x

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

In [76]:
# Pasamos la lista directamente
y = np.array([4, 5, 6])
y

array([4, 5, 6])

In [77]:
# Pasamos una lista de listas para crear un array multidimensional (bi en este caso)
z = np.array([[7, 8, 9], [10, 11, 12]])
z

array([[ 7,  8,  9],
       [10, 11, 12]])

In [78]:
x = np.array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])
x.shape

(1, 9)

In [79]:
# cambiar la forma de un array
b = x.reshape(3,3)
b

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

In [80]:
# dimensiones
b.shape

(3, 3)

In [81]:
# acceso a elementos
print(b[0,0])
print(b[0,1])
print(b[2,2])

1
2
9


In [82]:
# vistas de subarrays
b[0:2, 0:3]

array([[1, 2, 3],
       [4, 5, 6]])

In [83]:
# arrays inicializados
np.zeros((2,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [84]:
np.ones((2,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [85]:
np.eye(5,5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [86]:
# arange devuelve un array con los valores del 1 al 9
m = np.arange(1,10).reshape(3,3)
m

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

## Combinando Arrays

In [87]:
p = np.ones([2, 3], int)
p

array([[1, 1, 1],
       [1, 1, 1]])

Con `vstack` apilamos arrays verticalmente (por filas).

In [88]:
np.vstack([p, 2*p])

array([[1, 1, 1],
       [1, 1, 1],
       [2, 2, 2],
       [2, 2, 2]])

Por el contrario `hstack` apila arrays en secuencia horizontal (por columnas).

In [89]:
np.hstack([p, 2*p])

array([[1, 1, 1, 2, 2, 2],
       [1, 1, 1, 2, 2, 2]])

## Operaciones

Los operadores aritméticos `+`, `-`, `*`, `/` y `**` permiten realizar operaciones **elemento a elemento** con arrays.

In [90]:
x = np.array([1, 2, 3])
y = np.array([4, 5, 6])

print(x)
print(y)
print(x + y) # suma elemento a elemento     [1 2 3] + [4 5 6] = [5  7  9]
print(x - y) # resta elemento a elemento [1 2 3] - [4 5 6] = [-3 -3 -3]

[1 2 3]
[4 5 6]
[5 7 9]
[-3 -3 -3]


In [91]:
print(x * y) # multiplicación elemento a elemento  [1 2 3] * [4 5 6] = [4  10  18]
print(x / y) # división elemento a elemento         [1 2 3] / [4 5 6] = [0.25  0.4  0.5]

[ 4 10 18]
[0.25 0.4  0.5 ]


In [92]:
print(x**2) # potencia elemento a elemento  [1 2 3] ^2 =  [1 4 9]

[1 4 9]


In [93]:
z = np.vstack([x, y])
z

array([[1, 2, 3],
       [4, 5, 6]])

In [94]:
# suma por filas
z.sum(axis = 0)

array([5, 7, 9])

In [95]:
# suma por columnas
z.sum(axis = 1)

array([ 6, 15])

In [96]:
# suma de todos los elementos
z.sum()

21

In [97]:
# producto vectorial de dos vectores o matrices
np.dot(x, y)

32

Los operadores de comparación `>`, `<`, `<=`, `>=`, `==` y `!=` también funcionan elemento a elemento.

In [98]:
x < y

array([ True,  True,  True])

In [99]:
sum(x > 1)

2

<br>
Producto matricial: 

$ \begin{bmatrix}x_1 \ x_2 \ x_3\end{bmatrix}
\cdot
\begin{bmatrix}y_1 \\ y_2 \\ y_3\end{bmatrix}
= x_1 y_1 + x_2 y_2 + x_3 y_3$

In [100]:
x.dot(y) # producto matricial  1*4 + 2*5 + 3*6

32

For 2-D arrays it is the matrix product:

In [101]:
a = [[1, 0], [0, 1]]
b = [[4, 1], [2, 2]]
np.dot(a, b)

array([[4, 1],
       [2, 2]])

Trasapuesta de un array

In [102]:
print(y)
z = np.array([y, y**2])
z

[4 5 6]


array([[ 4,  5,  6],
       [16, 25, 36]])

In [103]:
z.shape

(2, 3)

In [104]:
z.T

array([[ 4, 16],
       [ 5, 25],
       [ 6, 36]])

In [105]:
z.T.shape

(3, 2)

<br>
Con `.dtype` vemos el tipo de datos de los elementos de un array.

In [106]:
z.dtype

dtype('int64')

<br>
Y con `.astype` hacemos un molde para convertirlos a un tipo específico.

In [107]:
z = z.astype('f')
print(z.dtype)
z

float32


array([[ 4.,  5.,  6.],
       [16., 25., 36.]], dtype=float32)

## Funciones matemáticas


Numpy tiene muchas funciones matemáticas para tratar arrays numéricos que nos permite realizar diversas operaciones de forma muy sencilla. 

In [108]:
a = np.array([-4, -2, 1, 3, 5])

In [109]:
a.sum()

3

In [110]:
a.max()

5

In [111]:
a.min()

-4

In [112]:
a.mean()

0.6

In [113]:
a.std()

3.2619012860600183

In [114]:
np.sin(a)

array([ 0.7568025 , -0.90929743,  0.84147098,  0.14112001, -0.95892427])

<br>
`argmax` y `argmin` devuelven el índice de los valores máximo y mínimo resp. del array.

In [115]:
a.argmax()

4

In [116]:
a.argmin()

0

## Acceso y selección de elementos de una matriz (indexing and slicing)

Crearemos un array con los cuadrados de los números del 0 al 12

In [117]:
s = np.arange(13)**2
s

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100, 121, 144])

<br>
Con los corchetes podemos recuperar el elemento de la posición indicada, recordando que la primera posición es la 0. 

In [118]:
s[0], s[4], s[-1]

(0, 16, 144)

<br>
Si usamos dos valores separados por `:` estaremos indicando que acceda a un rango de posiciones: `array[start:stop]`. Ten en cuenta que accederá hasta desde `start` hasta `stop - 1`


Si dejamos `start` o `stop` vacíos se usará el principio o el final del array respectivamente. 

In [119]:
s[1:5]

array([ 1,  4,  9, 16])

<br>
Si ponemos un valor negativo como elemento de `start` y dejamos el segundo valor vacío, recuperará los `start` elementos finales.

In [120]:
s[-4:]

array([ 81, 100, 121, 144])

<br>
Con la notación `array[start:stop:stepsize]` en el que `stepsize` nos indica el tamaño del salto/paso para recorrer los índices entre `start` y `stop`


In [121]:
s[2:9:3]

array([ 4, 25, 64])

<br>
Esto puede complicarse, aquí empezamos por el quinto elemento desde atrás y contamos hacia atrás de dos en dos hasta llegar al principio del array.

In [122]:
s[-5::-2]

array([64, 36, 16,  4,  0])

<br>
Consideremos ahora un array multidimensional.

In [123]:
r = np.arange(36)
r.resize((6, 6))
r

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30, 31, 32, 33, 34, 35]])

<br>
Indexamos un elemento indicando la fila y la columna como sigue: `array[row, column]`

In [124]:
r[2, 2]

14

<br>
En cualquiera de las dimensiones podemos usar : para selecionar un rango de filas/columnas.  

En inglés a esta selección se le llama 'slicing' porque sacamos rebanadas o lonchas de la matriz.

In [125]:
r[3, 3:6]

array([21, 22, 23])

<br>
De nuevo, esto se puede complicar... 

Aquí se seleccionan las dos primeras filas, y todas las columnas menos la última. 

NOTA: La potencia expresiva de la selección de elementos es grande, pero debe usarse con cuidado. Para ello se debe uno asegurar de que selecciona justo lo deseado y que no dificulta la legilibidad.

In [126]:
r[:2, :-1]

array([[ 0,  1,  2,  3,  4],
       [ 6,  7,  8,  9, 10]])

<br>
Aquí seleccionamos la última filay dentro de ella los elementos de dos en dos.

In [127]:
r[-1, ::2]

array([30, 32, 34])

### Indexación con arrays de enteros

Para indexar en un array bidimensional necesitamos un array indicando las filas de los elementos a indexar y otro indicando las columnas

Supongamos el array `r` de 6x6 donde queremos recuperar los elementos (0,0),(1,1),(2,2),(3,3) y (0,0)

In [128]:
# Filas los elementos 0, 2, 3, 4 y de nuevo el 2 del array
filas = [0, 1, 2, 3, 0]
columnas = [0, 1, 2, 3, 0]

r[filas, columnas]

array([ 0,  7, 14, 21,  0])

Podemos combinar el indexado con arrays y el "clásico"

In [129]:
r[filas, :]

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [ 0,  1,  2,  3,  4,  5]])

### Indexación con un array booleano

Podemos mostrar si cada uno de los elementos de un array cumplen una determinada condición. 

In [130]:
r > 30

array([[False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False, False, False, False, False, False],
       [False,  True,  True,  True,  True,  True]])

In [131]:
# O sacar el equivalente en ceros y unos
b = r > 30
b.astype(np.int)

Deprecated in NumPy 1.20; for more details and guidance: https://numpy.org/devdocs/release/1.20.0-notes.html#deprecations
  b.astype(np.int)


array([[0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 0, 0, 0, 0, 0],
       [0, 1, 1, 1, 1, 1]])

<br>
El array booleano lo podemos usar para hacer un indexado condicional (selección de aquellos valores que cumplan una condición). Ver también `np.where`.

In [132]:
r[r > 30]

array([31, 32, 33, 34, 35])

In [133]:
# Seleccionamos los elementos pares
r[r % 2 == 0]

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18, 20, 22, 24, 26, 28, 30, 32,
       34])

<br>
Podemos usar una selección dentro de una operación de asignación.

In [134]:
r[r > 30] = 0
r

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30,  0,  0,  0,  0,  0]])

## Copia de datos

La copia y modificación de arrays en NumPy ha de hacerse con cuidado. 


`r2` es una selección de `r`

In [135]:
r2 = r[:3,:3]
r2

array([[ 0,  1,  2],
       [ 6,  7,  8],
       [12, 13, 14]])

<br>
Si ponemos los valores de esta selección a cero, usando [:] que selecciona todas los valores, entonces...

In [136]:
r2[:] = 0
r2

array([[0, 0, 0],
       [0, 0, 0],
       [0, 0, 0]])

<br>
La selección de elementos no hace copia, sino que usa el mismo espacio en memoria. Por tanto...

¡¡¡Habrá cambiado también `r`!!!

In [137]:
r

array([[ 0,  0,  0,  3,  4,  5],
       [ 0,  0,  0,  9, 10, 11],
       [ 0,  0,  0, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30,  0,  0,  0,  0,  0]])

<br>
Para evitar esto debemos usar `r.copy` que creará una copia de la selección, de forma que estemos manejando (ahora sí) dos arrays independientes.

In [138]:
r_copy = r.copy()
r_copy

array([[ 0,  0,  0,  3,  4,  5],
       [ 0,  0,  0,  9, 10, 11],
       [ 0,  0,  0, 15, 16, 17],
       [18, 19, 20, 21, 22, 23],
       [24, 25, 26, 27, 28, 29],
       [30,  0,  0,  0,  0,  0]])

<br>
Ahora podemos modificar r_copy y r no cambiará.

In [139]:
r_copy[:] = 10
print(r_copy, '\n')
print(r)

[[10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]
 [10 10 10 10 10 10]] 

[[ 0  0  0  3  4  5]
 [ 0  0  0  9 10 11]
 [ 0  0  0 15 16 17]
 [18 19 20 21 22 23]
 [24 25 26 27 28 29]
 [30  0  0  0  0  0]]


## Iteracion en arrays

Creamos un array de 4 x 3 con números aleatorios de 0-9.

In [140]:
test = np.random.randint(0, 10, (4,3))
test

array([[0, 1, 8],
       [8, 4, 2],
       [2, 5, 9],
       [2, 8, 4]])

<br>
Iterar por filas, lo podemos hacer de forma directa como sigue (observa que puedes poner cualquier palabra para iterar)

In [141]:
for fila in test:
    print(fila)

[0 1 8]
[8 4 2]
[2 5 9]
[2 8 4]


<br>
De hecho podemos iterar también un array unidimeensional de la misma forma


In [142]:
for fila in test:
    for elemento in fila:
        print(elemento)

0
1
8
8
4
2
2
5
9
2
8
4


<br>
Podemos iterar usando el índice de la fila o de la columna. 

Para ello necesitamos saber el número de filas o columnas totales, que lo podemos obtener con `np.size()`


In [143]:
for f in range(np.size(test, 0)):
    print(test[f])

[0 1 8]
[8 4 2]
[2 5 9]
[2 8 4]


In [144]:
# Equivalente a la anterior, pero usando notación más clara
for f in range(np.size(test, 0)):
    print(test[f, :])

[0 1 8]
[8 4 2]
[2 5 9]
[2 8 4]


In [145]:
for c in range(np.size(test, 1)):
    print(test[:, c])

[0 8 2 2]
[1 4 5 8]
[8 2 9 4]


También podemos iterar usando `enumerate`, que nos da la fila y el índice de la fila

In [146]:
for i, fila in enumerate(test):
    print('fila', i, 'es', fila)

fila 0 es [0 1 8]
fila 1 es [8 4 2]
fila 2 es [2 5 9]
fila 3 es [2 8 4]


<br>
Podemos usar `zip` para iterar sobre múltiples iterables.

In [147]:
test2 = test**2
test2

array([[ 0,  1, 64],
       [64, 16,  4],
       [ 4, 25, 81],
       [ 4, 64, 16]])

In [148]:
for i, j in zip(test, test2):
    print(i,'+',j,'=',i+j)

[0 1 8] + [ 0  1 64] = [ 0  2 72]
[8 4 2] + [64 16  4] = [72 20  6]
[2 5 9] + [ 4 25 81] = [ 6 30 90]
[2 8 4] + [ 4 64 16] = [ 6 72 20]
