# El paquete Numpy

[Introducción](#Introducción)<br>
[Creación de arrays](#Creacion_arrays)<br>
[Propiedades de los arrays](#Propiedades_arrays)<br>
[Manipulando arrays](#Manipulando_arrays)<br>
[Álgebra lineal](#Algebra_lineal)<br>
[Combinando matrices](#Combinando_matrices)<br>
[Copia](#Copia)<br>
[Iterando con bucles](#Iterando_bucles)<br>
[Funciones universales](#Funciones_universales)



***
<a id='Introducción'></a>

## Introducción

**NumPy**, **Num**eric **Py**thon, es un paquete que dispone de múltiples herramientas para manejar **matrices** de una forma muy eficiente. 

En Python ya hemos trabajado con vectores (matriz unidimensional) y matrices usando **listas**. Sin embargo, la *flexibilidad* de las listas (posibilidad de albergar distintos tipos de datos en una misma lista y la de poder variar su tamaño de forma dinámica), conlleva una estructura interna en memoria que penaliza severamente la manipulación eficiente de listas de gran tamaño. ¡No hay beneficio sin servidumbre!

Por otro lado, la inmensa mayoría de las aplicaciones de interés que manejan matrices se caracterizan porque los datos que las conforman son del mismo tipo. Esta es una de las características de las matrices de **Numpy**: todos sus datos son del mismo tipo, lo que permite un almacenamiento interno en memoria eficiente.

Otro hándicap de Python a la hora de manejar grandes volúmenes de datos es su carácter interpretado. El acceso secuencial vía bucles a todos y cada uno de los elementos de una matriz de gran tamaño conlleva una ejecución, por parte del **intérprete**, inevitablemente lenta. Para contrarestar este severo inconveniente, el paquete **NumPy** permite invocar multitud de métodos de forma **vectorizada**, es decir, pasando como argumento directamente la variable que representa a la matriz, estando la manipulación secuencial a cargo de una implementación eficiente interna en los lenguajes C o Fortran, y de forma transparente al programador.

Con la **vectorización Numpy** ni mucho menos *ha inventado la rueda*. Muchos lenguajes, como C++, permiten implementar funciones *vectorizadas*, es decir, funciones cuyos argumentos son matrices u operadores cuyos operandos son matrices. El quiz está en que, en **Numpy**, *detrás del escenario*, entra en acción una implementación eficiente en un **lenguaje compilado**.

Para usar **NumPy** debemos importar el módulo `numpy`, típicamente usando el alias `np`:

In [2]:
import numpy as np

Por consistencia con la denominación dentro del módulo, la terminología que usaremos para referirnos indistintamente a vectores y matrices es el *barbarismo* **array**.

Debe tenerse en cuenta que en este documento expondremos una **pequeña parte** de las funciones  del módulo **NumPy**, las que se corresponden con las aplicaciones más habituales. Además, para cada función, existen multiples alternativas de invocación, con diferentes comportamientos en base a los tipos de los argumentos, argumentos opcionales, etc.

Memorizar todas las posibilidades no tiene sentido, ni en esta ni en ninguna biblioteca o módulo. Lo importante es conocer las características fundamentales del módulo y **aprender a consultar** teniendo *a mano* la documentación pertinente: [**Numpy** reference](https://numpy.org/doc/stable/). Esto último es extensible, en general, a cualquier biblioteca de Python u otro lenguaje.

***
<a id='Creacion_arrays'></a>

## Creación de arrays

El módulo `numpy` introduce en escena un nuevo tipo de objeto, `ndarray` (**n d**imensional **array**) caracterizado por:
* Almacenamiento eficiente de colecciones de **datos del mismo tipo**
* Conjunto de métodos que permiten operar de forma **vectorizada** sobre sus datos

Las formas más habituales de crear un nuevo *array* son:

* A partir de otras colecciones de datos de Python, como **listas** o **tuplas**
* Desde cero mediante funciones específicas
* Leyendo los datos de un fichero

### A partir de listas

Para ello, se dispone de la función `array()`:

In [3]:
np.array([1, 3, 5, 7, 9, 2, 4, 6, 8])

array([1, 3, 5, 7, 9, 2, 4, 6, 8])

In [4]:
np.array([[1, 3, 5], [7, 9, 2], [4, 6, 8]])

array([[1, 3, 5],
       [7, 9, 2],
       [4, 6, 8]])

Si hay mezcla de tipos, se *promocionan* los tipos al de mayor rango si es legal.

In [5]:
np.array([[1, 3, 5], [7., 9., 2.], [4, 6, 8]])

array([[1., 3., 5.],
       [7., 9., 2.],
       [4., 6., 8.]])

In [6]:
np.array(range(1, 10))

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

Podemos imponer el tipo de dato del *array* en un argumento opcional, mediante la palabra clave `dtype`:

In [7]:
np.array([x**2 for x in range(20)], dtype=float)

array([  0.,   1.,   4.,   9.,  16.,  25.,  36.,  49.,  64.,  81., 100.,
       121., 144., 169., 196., 225., 256., 289., 324., 361.])

### Desde cero a partir de funciones específicas

Hay múltiples funciones que permiten inicializar *arrays* con valores predeterminados, evitando su introducción manual. Mostramos algunas de ellas.

#### `zeros()`: inicialización con todos los valores a `0`

In [8]:
# El tipo de dato que genera zeros() es por defecto float. 
np.zeros(10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [9]:
# Para arrays de dimensión 2 o superior, el argumento con las dimensiones del array son tuplas
dimensiones = (2, 3)
np.zeros(dimensiones, dtype=int)  # np.zeros((2,3), dtype=int)

array([[0, 0, 0],
       [0, 0, 0]])

#### `ones()`: inicialización con todos los valores a `1`

In [11]:
# El tipo de dato que genera ones() es por defecto `float`
np.ones(10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [12]:
# Para arrays de dimensión 2 o superior, el argumento con las dimensiones del array son tuplas
np.ones((2,3), dtype=int)

array([[1, 1, 1],
       [1, 1, 1]])

#### `full()`: inicialización con todos los valores a un valor predeterminado

In [13]:
# El tipo de dato coincide con el del dato de inicialización 
np.full(10, 3)

array([3, 3, 3, 3, 3, 3, 3, 3, 3, 3])

#### `arange()`: emula la función intrínseca de Python `range()` 

In [14]:
# Secuencia lineal que empieza en 0 y acaba antes de 10. El incremento por defecto es 1.
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [15]:
# Secuencia lineal que empieza en 0., acaba antes de 100., con pasos de 2.5 en 2.5
np.arange(0., 100., 2.5)

array([ 0. ,  2.5,  5. ,  7.5, 10. , 12.5, 15. , 17.5, 20. , 22.5, 25. ,
       27.5, 30. , 32.5, 35. , 37.5, 40. , 42.5, 45. , 47.5, 50. , 52.5,
       55. , 57.5, 60. , 62.5, 65. , 67.5, 70. , 72.5, 75. , 77.5, 80. ,
       82.5, 85. , 87.5, 90. , 92.5, 95. , 97.5])

#### `linespace()`: creando una secuencia de valores equidistantes entre dos valores límite 

In [16]:
# Secuencia lineal con 9 valores equidistantes, que empieza en 0 y acaba en 2
np.linspace(0, 2, 9)

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

#### `diag()`: crea una matriz unitaria cuadrada 

In [17]:
# El tamaño de la matriz coincide con el de la lista o ndarray 
np.diag([3, 5, 7, 9])

array([[3, 0, 0, 0],
       [0, 5, 0, 0],
       [0, 0, 7, 0],
       [0, 0, 0, 9]])

In [18]:
# El tamaño de la matriz coincide con el de la lista o ndarray
np.diag(np.ones(5))

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

#### `random.random()`: inicialización de valores aleatorios distribuidos uniformemente

In [19]:
# Matriz de dimensiones (2,3) con valores aleatorios uniformes en el intervalo semiabierto [0,1)
np.random.random((2, 3))

array([[0.72641432, 0.72179684, 0.26940464],
       [0.65764839, 0.34437112, 0.06807058]])

Para obtener una distribución uniforme en el intervalo semiabierto $[a,b)$, con $b>a$ basta con premultiplicar por $b-a$ y al resultado sumarle $a$.

In [20]:
# Matriz de dimensiones (2,3) con valores aleatorios uniformes en el intervalo semiabierto [-2,2)
4*np.random.random((2, 3)) - 2

array([[ 1.35600631,  1.49341731, -0.70125875],
       [-0.95641887, -0.26646169,  0.73861181]])

#### `random.normal()`: inicialización de valores aleatorios con una distribución normal

In [21]:
# Vector de dimensión 10 con valores aleatorios con distribución normal de media 0 y desviación estándar 1
np.random.normal(0, 1, 10)

array([-1.75008791, -1.0247207 , -1.48420313,  0.23697077,  3.37077981,
        0.92892576,  0.9181296 ,  0.25642512,  0.22692406, -0.05764676])

#### `random.randint()`: inicialización de valores aleatorios enteros pertenecientes a un rango de valores

In [22]:
# Matriz 5x5 de enteros aleatorios en el intervalo abierto [-9, 10)
np.random.randint(-9, 10, (5, 5))

array([[-1, -8,  7,  8, -8],
       [-7,  7, -4, -2,  1],
       [-2,  6,  9, -3, -4],
       [ 3, -2, -4,  0,  3],
       [ 3,  3,  3,  5,  4]])

Como ejemplo de la ingente cantidad de funciones de **Numpy**, echad un ojo al enlace [**Numpy random** reference](https://numpy.org/doc/stable/reference/random/index.html), que muestra la variedad de herramientas para trabajar con números aleatorios.

### Desde un fichero

El fichero *ejemplo_con_espacios_en_blanco.dat* tiene un conjunto de datos separados por espacios en blanco.
```
1 2   3
4  5 6
7 8   9
   10 11 12

```
La función `loadtxt()` es capaz de leerlo de forma inmediata, siendo el tipo de dato por defecto `float`.

In [23]:
np.loadtxt('data/ejemplo_con_espacios_en_blanco.dat')

array([[ 1.,  2.,  3.],
       [ 4.,  5.,  6.],
       [ 7.,  8.,  9.],
       [10., 11., 12.]])

In [24]:
# Leyendo como tipo int
np.loadtxt('data/ejemplo_con_espacios_en_blanco.dat', dtype=int)

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

Si el fichero tiene sus datos separados por un delimitador homogéneo, como la `,` en los ficheros **.csv**, (**c**omma **s**eparated **v**alues), el uso del parámetro opcional `delimiter` filtra ese carácter.
Es el caso del fichero *ejemplo_csv.dat*
```
1,2,3
4,  5, 6
7 ,8 ,  9
   10, 11, 12
```
La función `loadtxt()` es capaz de leerlo de forma inmediata, siendo el tipo de dato por defecto `float`.
Nótese en ambos ejemplos la deliberada introducción de espacios en blanco innecesarios.

In [25]:
np.loadtxt('data/ejemplo_csv.dat', dtype=int, delimiter=',')

array([[ 1,  2,  3],
       [ 4,  5,  6],
       [ 7,  8,  9],
       [10, 11, 12]])

De nuevo, las posibilidades de lectura de un fichero que ofrece **Numpy** es enorme.
Imaginemos un tipo de fichero, *ejemplo_lectura_parcial.dat* del que sabemos que las dos primeras filas describen el archivo y no estamos interesados en ellas.

```Descripcion del fichero
Solo queremos leer la segunda columna
1 3.123 23
2 4.53 12
3 6.71 17
4 9.3 15
5 2.731 9
6 29.14 106
```

El parámetro opcional `skiprows` nos permite hacerlo fácilmente.

Además, de entre los datos útiles sólo estamos interesados en las columnas 1 y 2. Con el parámetro opcional `usecols` podemos seleccionar las columnas.

In [24]:
M = np.loadtxt('data/ejemplo_lectura_parcial.dat', skiprows=2, usecols=(1, 2))
print(M)

[[  3.123  23.   ]
 [  4.53   12.   ]
 [  6.71   17.   ]
 [  9.3    15.   ]
 [  2.731   9.   ]
 [ 29.14  106.   ]]


Volvemos a insistir que la manera de proceder para aprender a trabajar con este y otros módulos no es memorizar comandos, sino consultar el manual de referencia correspondiente y sondear todas las posibilidades que una determinada herramienta ofrece. Para el caso de la función `loadtxt()`, [numpy.loadtxt reference](https://numpy.org/doc/stable/reference/generated/numpy.loadtxt.html).

Como el alumno podrá imaginar, existe una función *hermana* de `loadtxt()`.

In [25]:
# Salvar en el archivo data/prueba.dat la matriz m generada en la celda anterior en formato csv
# con un formato de sólo dos cifras decimales para la primera columna y enteros para la segunda

np.savetxt('data/prueba.dat', M, delimiter=',', fmt=['%.2f', '%d'])
np.loadtxt('data/prueba.dat', delimiter=',')

array([[  3.12,  23.  ],
       [  4.53,  12.  ],
       [  6.71,  17.  ],
       [  9.3 ,  15.  ],
       [  2.73,   9.  ],
       [ 29.14, 106.  ]])

**Numpy** maneja su propio formato nativo de ficheros a través de las funciones `save()` y `load()`. El almacenamiento es de tipo binario y, por tanto, no son legibles. En ausencia de extensión, se añade la terminación `.npy`. Es la mejor alternativa de lectura/escritura por su eficiencia y comodidad si nos vamos a mover dentro del *universo* **Numpy**.

In [26]:
np.save('data/fichero_numpy', M)
np.load('data/fichero_numpy.npy')

array([[  3.123,  23.   ],
       [  4.53 ,  12.   ],
       [  6.71 ,  17.   ],
       [  9.3  ,  15.   ],
       [  2.731,   9.   ],
       [ 29.14 , 106.   ]])

***
<a id='Propiedades_arrays'></a>

## Propiedades de los arrays

Las dimensiones de un array pueden obtener con la propiedad `shape`, que devuelve una tupla.

In [27]:
M = np.ones((2, 3), dtype=float)
M.shape

(2, 3)

El número de elementos mediante la propiedad `size`:

In [28]:
M.size

6

El número de dimensiones mediante la propiedad `ndim`:

In [29]:
M.ndim

2

Se puede obtener también consultando la longitud de la tupla `shape`.

In [30]:
len(M.shape)

2

***
<a id='Manipulando_arrays'></a>

## Manipulando arrays

### Indexado

Para arrays unidimensionales, se hace de forma equivalente a las listas:

In [31]:
v = np.random.randint(-9, 10, 5)
print(v)
v[0]

[-5 -3  3  5 -9]


-5

Para arrays multidimensionales, accedemos individualmente a los elementos separando los índices por comas:

In [32]:
M = np.random.randint(-9, 10, (5, 3))
print(M)
M[1, 2]

[[ 8  7  9]
 [-3 -1  3]
 [ 7 -9  8]
 [ 7 -6  9]
 [ 5 -5 -1]]


3

Si queremos acceder, por ejemplo, a toda una fila de una matriz de dos dimensiones, indicamos simplemente el índice de la fila:

In [33]:
M[1]

array([-3, -1,  3])

Lo mismo se puede conseguir usando la notación `:`: 

In [34]:
M[2, :]  # fila 2

array([ 7, -9,  8])

Esto nos permite de una forma práctica acceder a toda una columna: 

In [35]:
M[:, 1]  # columna 1

array([ 7, -1, -9, -6, -5])

Las asignaciones a elementos individuales siguen las pautas normales:

In [36]:
M[1, 2] = 1000

In [37]:
M

array([[   8,    7,    9],
       [  -3,   -1, 1000],
       [   7,   -9,    8],
       [   7,   -6,    9],
       [   5,   -5,   -1]])

También podemos asignar un valor a todos los elementos de una fila o columna:

In [38]:
M[2, :] = 10000
M[:, 1] = -300

In [39]:
M

array([[    8,  -300,     9],
       [   -3,  -300,  1000],
       [10000,  -300, 10000],
       [    7,  -300,     9],
       [    5,  -300,    -1]])

***
<a id='Algebra_lineal'></a>

## Álgebra lineal

El paquete **NumPy** permite invocar multitud de métodos de forma **vectorizada**, es decir, pasando como argumento directamente la variable que representa a la matriz.

### Operaciones de tipo escalar

Veamos algunos ejemplos:

In [40]:
v = np.arange(0, 10)

In [41]:
2*v

array([ 0,  2,  4,  6,  8, 10, 12, 14, 16, 18])

In [42]:
v + 3

array([ 3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

In [43]:
M = np.ones((3, 5))

In [44]:
2*M

array([[2., 2., 2., 2., 2.],
       [2., 2., 2., 2., 2.],
       [2., 2., 2., 2., 2.]])

In [45]:
M - 1

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

### Operaciones entre elementos correlativos

In [46]:
M = np.array([[1, 2, 3], [4, 5, 6]])
M*M

array([[ 1,  4,  9],
       [16, 25, 36]])

In [47]:
v = np.arange(0, 3)
v*v

array([0, 1, 4])

### Operaciones con matrices
Lógicamente, las dimensiones de las matrices involucradas deben ser compatibles.

#### Multiplicación
Usando la función `dot`: 

In [48]:
M = np.array([[1, 2, 3], [4, 5, 6]])
N = np.array([[1, 2], [3, 4], [5, 6]])
M.shape, N.shape

((2, 3), (3, 2))

In [49]:
np.dot(M, N)

array([[22, 28],
       [49, 64]])

In [50]:
v = np.arange(0, 3)
M.shape, v.shape

((2, 3), (3,))

In [51]:
np.dot(M, v)

array([ 8, 17])

In [52]:
np.dot(v, v)  # producto escalar

5

### Transformaciones
#### Transpuesta

Mediante `.T` o la función `transpose` podemos obtener la transpuesta.

In [53]:
M = np.array([[1, 2, 3], [4, 5, 6]])
M.T

array([[1, 4],
       [2, 5],
       [3, 6]])

In [54]:
np.transpose(M)

array([[1, 4],
       [2, 5],
       [3, 6]])

#### Inversa
Debemos invocar al módulo `linalg`.

In [55]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 10]])
N = np.linalg.inv(M) # equivalent to C.I 
print(N)

[[-0.66666667 -1.33333333  1.        ]
 [-0.66666667  3.66666667 -2.        ]
 [ 1.         -2.          1.        ]]


In [56]:
np.dot(M, N)

array([[ 1.00000000e+00, -4.44089210e-16, -1.11022302e-16],
       [ 4.44089210e-16,  1.00000000e+00, -2.22044605e-16],
       [ 4.44089210e-16,  8.88178420e-16,  1.00000000e+00]])

#### Determinante

In [57]:
np.linalg.det(M)

-3.000000000000001

### Propiedades de la matriz

#### Media

In [58]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
np.mean(M)  # Media de todos los valores de la matriz

5.0

In [59]:
np.mean(M[:, 2])  # Media de la columna 2

6.0

In [60]:
np.mean(M[0, :])  # Media de la fila 0

2.0

#### Desviación estándar y varianza

In [61]:
np.std(M), np.var(M)

(2.581988897471611, 6.666666666666667)

In [62]:
np.std(M[:, 2]), np.var(M[0, :])

(2.449489742783178, 0.6666666666666666)

#### Mínimo y máximo

In [63]:
M.min(), M.max()

(1, 9)

In [64]:
M[:, 2].min(), M[:, 2].max()

(3, 9)

#### Suma, producto y traza

In [65]:
np.sum(M)

45

In [66]:
np.prod(M)

362880

In [67]:
# Suma acumulativa. Recorre por filas.
np.cumsum(M)

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45], dtype=int32)

In [68]:
# Producto acumulativo. Recorre por filas.
np.cumprod(M)

array([     1,      2,      6,     24,    120,    720,   5040,  40320,
       362880], dtype=int32)

In [69]:
# Podría usarse npdiag(M).sum()
np.trace(M)

15

***
<a id='Combinando_matrices'></a>

## Combinando matrices

Hay muchas opciones. Vamos a comentar unas pocas.

### Concatenar

In [70]:
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
v3 = np.array([7, 8, 9])

M = np.concatenate((v1, v2, v3))
print(M)

[1 2 3 4 5 6 7 8 9]


### Apilar, horizontalmente y verticalmente

In [71]:
M = np.vstack((v1, v2, v3))
print(M)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [72]:
M = np.hstack((v1, v2, v3))  # El mismo resultado para este ejemplo que concatenate
print(M)

[1 2 3 4 5 6 7 8 9]


***
<a id='Copia'></a>

## Copia

Para obtener una copia independiente de una matriz se usa el método `copy()`

In [73]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
N = np.copy(M)

In [74]:
N [0, 0] = -1000
N

array([[-1000,     2,     3],
       [    4,     5,     6],
       [    7,     8,     9]])

In [75]:
M

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

***
<a id='Iterando_bucles'></a>

## Iterando con bucles

De forma similar a como se hace con listas

In [76]:
v = np.arange(10)

for x in v:
    print(x)

0
1
2
3
4
5
6
7
8
9


In [77]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])

for fila in M:  # fila es una fila de M
    for x in fila:
        print(x, end=' ')
    print()

1 2 3 
4 5 6 
7 8 9 


Para iterar y modificar, nos podemos ayudar de `enumerate()`. 

In [78]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
# Elevamos al cuadrado los elementos de la matriz M
for i, fila in enumerate(M):  # i es el índice de la fila; fila es una fila de M
    for j, x in enumerate(fila):
        M[i, j] *= x
        
print(M)

[[ 1  4  9]
 [16 25 36]
 [49 64 81]]


In [79]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
M = M*M
print(M)

[[ 1  4  9]
 [16 25 36]
 [49 64 81]]


Este ejemplo anterior es una muestra de que en muchas ocasiones las operaciones que iteran sobre los elementos de una matriz ya están implemntadas en Numpy. ¡No reinventemos la rueda!

***
<a id='Funciones_universales'></a>

## Funciones universales
Una **función universal** es una función que realiza operaciones elemento a elemento de la matriz. Gran parte de las funciones de la biblioteca matemática están vectorizadas en el módulo numpy.

In [80]:
M = np.array([np.pi, np.pi/2, np.pi/3, np.pi/4, 0])
np.cos(M)

array([-1.00000000e+00,  6.12323400e-17,  5.00000000e-01,  7.07106781e-01,
        1.00000000e+00])

In [81]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
np.sqrt(M)

array([[1.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

Podéis consultar todas las opciones disponibles en [numpy.ufuncs reference](https://numpy.org/doc/stable/reference/ufuncs.html)