![](./imagenes/python_logo.jpeg)
# Librería NumPy.
***

[*NumPy*](https://docs.scipy.org/doc/numpy/user/index.html) (*Numerical Python*) es una librería para el cómputo científico. Esta librería contiene muchas funciones matemáticas que permiten realizar operaciones de álgebra lineal, manejar matrices y vectores, generar números pseudo-aleatorios, etc. De forma muy general, el computo científico se basa en operar con arreglos de números; a veces estos arreglos representan matrices y vectores, y las operaciones necesarias son fundamentalmente las del álgebra lineal. En otros casos, como en el análisis de datos, los arreglos de números no necesariamente (o no siempre) son vectores y matrices en estricto sentido matemático. Por ejemplo casi cualquier conjunto de datos puede ser pensado como un arreglo de números. Una imagen es un arreglo bidimensional de números donde cada número representa el brillo de un pixel. Un sonido es un arreglo unidimensional que representa intensidad versus tiempo.

*NumPy* no forma parte de la instalación estándar de *Python*, así que debe instalarse por separado. Desde una cónsola o terminal, basta con teclear:

```bash
pip install numpy
```

*NumPy* introduce objetos *`array`* que son similares a las listas en *Python*, pero que pueden ser manipulados por numerosas funciones contenidas en la librería. El tamaño de los arrays es **inmutable** y no se permiten elementos vacíos.

En definitiva, para el cómputo científico es necesario contar con formas eficientes de almacenar y manipular arreglos de números y *NumPy* ha sido diseñado para esta tarea. El código escrito en *NumPy* suele ser más corto que el código equivalente en *Python* puro. El uso de *loops* es reducido, ya que muchas operaciones se aplican directamente sobre arreglos (*arrays*). Esto se conoce como *vectorizar el código*, internamente los loops siguen estando presentes pero son ejecutados por rutinas optimizadas escritas en lenguajes como _C_ o *Fortran*. Además, *NumPy* provee de muchas funciones matemáticas/científicas listas para usar. Esto reduce la cantidad de código que debemos escribir reduciendo así las posibilidades de cometer errores, y lo más importante, es que las funciones de *NumPy* están escritas usando implementaciones eficientes y confiables.

Para poder usar *NumPy* debemos importarlo, la forma más común de importar *NumPy* es la siguiente:

In [1]:
import numpy as np

## Arreglos (arrays).

*NumPy* usa una estructura de datos llamada *array* (arreglos). Los arreglos de *NumPy* son similares a las listas de *Python*, pero son más eficientes para realizar tareas numéricas. La eficiencia deriva de las siguientes características:

* Las listas de *Python* son muy generales, pudiendo contener objetos de distinto tipo. Además los objetos son asignados dinámicamente; es decir, el tamaño de una lista en *Python* no está predefinido y siempre podemos agregar más y más elementos.

* Por el contrario, los arreglos de *NumPy* son **estáticos** y **homogéneos**. El tipo de los objetos se determina cuando el array es creado (de forma automática o por el usuario) lo que permite hacer uso eficiente de la memoria.

* Otra razón por la cual los arreglos en *NumPy* son más eficientes que las listas, es que en *Python* todo es un objeto, incluso los números! Por ejemplo en lenguaje *C* un entero es esencialmente un rótulo que conecta un lugar en la memoria de la computadora cuyos bytes se usan para codificar el valor de ese entero. Sin embargo, en *Python* un entero es un objeto más complejo que contiene más información que simplemente el valor del número. Esto da flexibilidad a *Python*, pero el costo es que es más lento que un lenguaje como _C_. Este costo es aún mayor cuando combinamos muchos de estos objetos en un objeto más complejo, por ejemplo cuando combinamos enteros dentro de una lista en *Python*.

Otra ventaja de los arreglos de *NumPy* es que se comportan de forma similar a los vectores y matrices usados en matemáticas.

## Creando arreglos.

Existen varias rutinas para crear arreglos de *NumPy* a partir de:

* Listas o tuplas de *Python*.
* Rangos numéricos.
* Números aletorios.
* Ceros y unos.
* Archivos.

### A partir de listas y tuplas:

In [2]:
v = np.array([1, 2, 3, 4 , 5, 6])
v

array([1, 2, 3, 4, 5, 6])

In [3]:
M = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 9]])
M

array([[1, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

El atributo *`shape`* de los objetos *array* retorna la *forma* de los arreglos; esto es el número de dimensiones y número de elementos del *array* en forma de tupla:

In [4]:
v.shape, M.shape

((6,), (3, 3))

### A partir de un rango numérico:

Una forma de crear arreglos en *NumPy* desde cero es usando *rangos*. Por ejemplo podemos crear un arreglo conteniendo números igualmente espaciados en el intervalo \[desde, hasta) usando la función *`arange`*:

In [5]:
np.arange(0, 10, 2) # desde, hasta(sin incluir), paso.

array([0, 2, 4, 6, 8])

Otra función para crear rangos es *`linspace`* que devuelve números igualmente espaciados en el intervalo \[*desde*, *hasta*, *elementos*\] (es decir incluyendo el *hasta*). Otra diferencia de la función *`linspace`* con *`arange`* es que no se especifica el paso sino la **cantidad total** de números que contendrá el arreglo:

In [7]:
np.linspace(1, 10, 5) # desde, hasta, elementos (elementos es opcional).

array([ 1.  ,  3.25,  5.5 ,  7.75, 10.  ])

### A partir de números aleatorios:

Los números aleatorios son usados en muchos problemas científicos. En la práctica las computadoras son capaces solo de generar números *pseudo-aleatorios*; es decir, números que para los fines prácticos *lucen* como números aleatorios.

Todas las rutinas para generar números aleatorios viven dentro del módulo *`random`* de *NumPy*. *Python* usa un algortimo llamado [Mersenne Twister](https://en.wikipedia.org/wiki/Mersenne_twister) para generar números pseudo-aleatorios. Este algorítmo es más que suficiente para fines científicos, pero no es útil en el caso que necesitemos números pseudo-aleatorios para usar en *criptografía*.

La función mas simple es *`rand`*. Esta función crea un arreglo a partir de una distribución *uniforme* en el intervalo \[0, 1):

In [10]:
np.random.rand(2, 5)  # arreglo con forma (2, 5).

array([[0.88430927, 0.66596504, 0.99994173, 0.00851365, 0.42786303],
       [0.77066912, 0.94805841, 0.78589416, 0.05079134, 0.33327622]])

De forma similar, la función *`randn`* devuelve muestras a partir de la *distribución normal estándar* (media = 0, desviación estándard = 1):

In [18]:
np.random.randn(10) # Muestra de 10 elementos de la distribución normal estándar.

array([ 0.21395335, -1.22334684, -0.94820782,  0.25780658,  0.08921266,
        0.12758925, -0.1340775 ,  0.2204907 , -0.61880076, -0.04563472])

Más general, la función *`normal`* devuelve una muestra de una *distribución normal* dada una media, una desviación estándar y el tamaño de la muestra:

In [19]:
media   = 5
desv    = 2
muestra = 5
np.random.normal(media, desv, muestra)

array([7.99089627, 8.0757311 , 5.37896247, 7.64813094, 3.78056672])

### A partir de ceros y unos:

Las funciones *`zeros`* y *`ones`* retornan arreglos de *ceros* y *unos* dados el número de elementos:

In [25]:
np.zeros(5) # Arreglo de 5 elementos cero.

array([0., 0., 0., 0., 0.])

In [26]:
np.ones(7) # Arreglo de 7 elementos uno.

array([1., 1., 1., 1., 1., 1., 1.])

In [31]:
np.zeros(shape = (2, 3)) # Arreglo de ceros especificando el shape.

array([[0., 0., 0.],
       [0., 0., 0.]])

In [30]:
np.ones(shape = (3, 3)) # Arreglo de unos especificando el shape.

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

## Indexado y rebanado de arreglos.

Los arreglos de *NumPy*, al igual que las listas se pueden *indexar* y se pueden tomar rebanadas (slices). La sintaxis es una generalización de la usada para las listas de *Python*. Una de las diferencias es que podemos indexar de acuerdo a las distintas dimensiones de un arreglo.

In [32]:
M[0]  # El primer elemento de M.

array([1, 2, 3])

In [33]:
M[0, 1] # El primer elemento de M y obtenemos el segundo elemento.

2

In [35]:
M[0][1] # Forma alternativa.

2

In [36]:
M[1:]  # A partir de la fila 1, todo.

array([[4, 5, 6],
       [7, 8, 9]])

In [38]:
M[1,:]  # Fila 1, todas las columnas.

array([4, 5, 6])

In [40]:
M[1]    # Forma equivalente.

array([4, 5, 6])

In [41]:
M[:, 1] # Todas las dilas de la columna 1.

array([2, 5, 8])

In [43]:
M[:, 1:]  # Todas las columnas a partir de la columna 1.

array([[2, 3],
       [5, 6],
       [8, 9]])

In [45]:
M[::-1]  # Los elementos de M en reversa.

array([[7, 8, 9],
       [4, 5, 6],
       [1, 2, 3]])

Es importante acotar que al tomar *rebanadas* (*slices*) *NumPy* NO genera un nuevo arreglo; sino una **vista** (*view*) del arreglo original. Por lo tanto, si a una rebanada le asignamos un número, se lo estaremos asignando al arreglo original, como se puede ver en el siguiente ejemplo:

In [46]:
M[0, 0] = 0
M

array([[0, 2, 3],
       [4, 5, 6],
       [7, 8, 9]])

Para crear copias se puede usar la función *`np.copy()`* o el método *`.copy()`* de los objetos *`array`*.

## Funciones Universales (Ufunc).

*NumPy* provee de varias funciones matemáticas. Esto puede parecer redundante ya que la librería estandard de *Python* ya provee de este tipo de funciones. La **diferencia**, es que la funciones matemáticas de *NumPy* (como otras funciones) pueden ser aplicadas en **un solo paso** a todos los elementos de un arreglo.

Por ejemplo, si quisieramos calcular la raíz cuadrada de todos los elementos de una lista de *Python* deberíamos hacer un loop sobre cada elementos de la lista y computar la raíz cuadrada a cada elemento (y posiblemente almacenarlo en otra lista). Con *NumPy* podemos hacer esto mismo en una sola linea:

In [47]:
np.sqrt(M)

array([[0.        , 1.41421356, 1.73205081],
       [2.        , 2.23606798, 2.44948974],
       [2.64575131, 2.82842712, 3.        ]])

Funciones como *`sqrt`*, que operan sobre arreglos *elemento-a-elemento* se conocen como [***funciones universales***](http://docs.scipy.org/doc/numpy/reference/ufuncs.html) (usualmente abreviadas como *ufunc*).

Una de las ventajas de usar *ufuncs* es que permiten escribir código más breve. Otra ventaja es que los cómputos son más rápidos que usando loops de *Python*. Detrás de escena *NumPy* sí realiza un loop, pero este se ejecuta en lenguaje _C_ o *Fortran*, por lo que hay una ganancia considerable en velocidad en comparación con el código en *Python* puro. Además, el código usado por *NumPy* es código que suele estar optimizado gracias a los años de labor de programadores y científicos.

Esta forma de omitir loops y escribir operaciones sobre vectores se llama *vectorización*.

Veamos otro ejemplo, como sumar todos los elementos de un arreglo:

In [48]:
np.sum(M)

44

En el ejemplo anterior la suma se hizo sobre el arreglo "aplanado". Hay veces que esto no es lo que queremos, si no que necesitamos sumar sobre alguna de las dimensiones del arreglo:

In [53]:
np.sum(M, axis = 0) # Sumariza por columnas.

array([11, 15, 18])

In [54]:
np.sum(M, axis = 1) # Sumariza por filas.

array([ 5, 15, 24])

## Broadcasting.

Otro elemento que facilita vectorizar código es la capacidad de operar sobre arreglos que no tienen las mismas dimensiones. Esto se llama *broadcasting* y no es más que un conjunto de reglas que permiten aplicar operaciones binarias (suma, multiplicación etc.) a arreglos de distinto tamaño.

Consideremos el siguiente ejemplo:

In [55]:
a = np.array([0, 1, 2])
b = np.array([2, 2, 2])
a + b

array([2, 3, 4])

Esto no es nada sorprendente, lo que hemos hecho es sumar elemento-a-elemento. Fíjese que el arreglo `b` contiene 3 veces el número 2. Gracias al *broadcasting* es posible obtener el mismo resultado al hacer:

In [56]:
a + 2

array([2, 3, 4])

Esto no sólo funciona para arreglos y números, también funciona para dos arreglos:

In [57]:
M + b

array([[ 2,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

En ambos casos lo que está sucediendo es como si antes de realizar la suma extendieramos una de las partes para que las dimensiones conincidan, por ejemplo repetir 3 veces el número 2 o tres veces el vector b. En realidad tal repetición no se realiza, pero es una forma útil de pensar la operación.

Es claro que el *broadcasting* NO puede funcionar para cualquier par de arreglos. La siguiente operación funciona:

In [58]:
M[1:, :] + b

array([[ 6,  7,  8],
       [ 9, 10, 11]])

Mientras que la siguiente dará un error:

In [59]:
M + b[:2]

ValueError: operands could not be broadcast together with shapes (3,3) (2,) 

El error es claro, *NumPy* no sabe cómo hacer para encajar las dimensiones de estos dos arreglos. Más detalles sobre broadcasting [aquí](https://docs.scipy.org/doc/numpy/user/basics.broadcasting.html).

## Comparaciones y máscaras de booleanos.

Así como es posible sumar un número a un arreglo, también es posible hacer comparaciones *elemento-a-elemento*:

In [60]:
M > 3

array([[False, False, False],
       [ True,  True,  True],
       [ True,  True,  True]])

Es muy común usar el resultado de tal comparación para obtener valores de un arreglo que cumplan con cierto criterio, como:

In [61]:
M[M > 3]

array([4, 5, 6, 7, 8, 9])

O incluso combinando arreglos, como:

In [62]:
M[a == 2]

array([[7, 8, 9]])

## Medidas de centralidad y dispersión.

*NumPy* nos permite calcular la media, la mediana y la varianza a partir de arrays de forma muy simple. Por ejemplo para calcular la media podemos usar la función np.mean():

In [63]:
np.mean(v)

3.5

Una forma alternativa es usar el método *`.mean()`* de un objeto *array*:

In [64]:
v.mean()

3.5

Las funciones y métodos *`var`* y *`std`* calculan la *varianza* y la *desviación* de un *array*:

In [65]:
np.var(v) # Varianza de los elementos de v.

2.9166666666666665

In [69]:
v.var()   # Forma alternativa.

2.9166666666666665

In [67]:
np.std(v) # Desviación estándar de v.

1.707825127659933

In [70]:
v.std()   # Forma alternativa.

1.707825127659933

Existen otras medidas para caracterizar los datos, llamadas de forma, como son la [*curtosis*](https://es.wikipedia.org/wiki/Curtosis) y el [*sesgo*](https://es.wikipedia.org/wiki/Sesgo_estadístico) (o asimetría estadística).

Estás medidas son menos usadas en parte porque su interpretación es menos intuitiva que otras medidas, como la media o la varianza, al punto que la interpretación correcta de estas medidas ha sido objeto de varias discusiones y malos entendidos a los largo de los años. Otra razón para su menor uso es que históricamente gran parte de la estadística se ha basado en el uso de Gausianas (o en asumir que los datos son Gaussianos) para las cuales la curtosis y el sesgo son cero.

## Cuantil.

Los *cuantiles* son puntos de corte que dividen al conjunto de datos en grupos de igual tamaño. Existen varios nombres para los cuantiles según la cantidad de divisiones que nos interesen.

* Los *cuartiles* son los tres puntos que dividen a la distribución en 4 partes iguales, se corresponden con los cuantiles 0.25, 0.50 y 0.75.
* Los *quintiles* dividen a la distribución en cinco partes (corresponden a los cuantiles 0.20, 0.40, 0.60 y 0.80);
* Los deciles, que dividen a la distribución en diez partes.
* Los percentiles, que dividen a la distribución en cien partes.
* La mediana es el percentil 50 o el cuartil 0.5.

En *Python* el cálculo de estos estadísticos puede realizarse fácilmente usando funciones predefinidas en *NumPy*:

In [73]:
x = np.random.rand(100)
np.percentile(x , [25, 50, 75])

array([0.20943292, 0.43685458, 0.70860723])

### Z-score.

El *Z-score* es una cantidad adimensional que expresa el número de desviaciones estándar que un dato está por encima o por debajo de la media. Si el *Z-score* es positivo el dato está por encima de la media, y cuando es negativo está por debajo de la media. Se calcula como:

$$z = \frac{x - \mu}{\sigma}$$

Donde:

$\mu$ es la media de la población y $\sigma$ es la desviación estándar de la población.

El proceso de restar la media y dividir por la desviación estándar se llama *normalización* o *estandarización*.

### Error estándar.

El *error estándar* es la desviación estándar de alguna medida estimada, por lo general la media (aunque podría ser cualquier otra cantidad).

Si tomamos un conjunto de datos y calculamos la media de esos datos y luego tomamos otra muestra y calculamos la media y luego otra y otra, obtendremos que los valores de la media no son siempre los mismos. Si tomamos todas esas medias obtendremos una distribución de medias con una media y desviación estándar, esa desviación estándar será el error estándar de la media. El *error estándar de la media* se suele estimar como:

$$\frac{\sigma}{\sqrt{n}}$$

Donde $\sigma$ es la desviación estándar de los datos y $n$ es la cantidad de datos.

La medidas de centralidad y dispersión antes mencionadas son útiles porque resumen en pocos números una gran cantidad de datos. Sin embargo, al sintetizar la información, también pueden ocultarla. Es por ello que siempre es buena idea visualizar la distribución de los datos. En el notebook de [**Matplotlib**](03_matplotlib.ipynb) veremos cómo usar *Python* para graficar y visualizar datos.

## Funciones básicas de Álgebra Lineal.

*NumPy* tiene diversas funciones para el cálculo de Álgebra Lineal, agrupadas mayormente en el submódulo *`numpy.linalg`*. A continuación presentamos algunas de las funciones principales del Álgebra Lineal de *NumPy*.

In [88]:
np.dot(a, b) # Producto escalar de los vectores a y b.

6

In [94]:
a@b # Forma alternativa del producto escalar de los vectores a y b con el operador @.

6

In [119]:
I = np.identity(3) # Retorna la matriz identidad de 3x3.
I

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [120]:
np.dot(M, I) # Multiplicación de las matrices M e I.

array([[0., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [118]:
M@I # Forma alternativa de la multiplicación de las matrices M e I con el operador @.

array([[0., 2., 3.],
       [4., 5., 6.],
       [7., 8., 9.]])

In [97]:
M.T # Matriz transpuesta de M.

array([[0, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

In [99]:
np.diagonal(M) # Retorna la diagonal de la matriz M.

array([0, 5, 9])

In [106]:
np.diagonal(M, 1) # Retorna la primera diagonal de M (encima de la diagonal principal)

array([2, 6])

In [109]:
np.trace(M) # Retorna la suma de los elementos de la diagonal de M.

14

In [111]:
np.argmax(M) # Retorna el índice del mayor elemento en M.

8

In [113]:
np.argmin(M, axis = 0) # Retorna los índices de los menores elementos por columna. 

array([0, 0, 0])

In [117]:
np.linalg.det(M) # Retorna el determinante de M.

3.000000000000001

In [116]:
np.linalg.inv(M) # Retorna la matriz inversa de M.

array([[-1.        ,  2.        , -1.        ],
       [ 2.        , -7.        ,  4.        ],
       [-1.        ,  4.66666667, -2.66666667]])

In [121]:
np.linalg.solve(M, b) # Resuelve el sistema lineal de ecuaciones Mx = b.

array([-1.01506105e-15, -2.00000000e+00,  2.00000000e+00])