### **Introducción a NumPy**

NumPy es una biblioteca de Python que se utiliza para realizar cálculos matemáticos en matrices y arreglos multidimensionales. Es una herramienta esencial para el análisis de datos y el aprendizaje automático en Python. NumPy también es muy rápido y eficiente, lo que lo hace ideal para trabajar con grandes conjuntos de datos.



### **Import NumPy module/package**

Ejecuta la siguiente celda de código para importar el módulo NumPy:


In [None]:
import numpy as np

## Creation of arrays

Existen varias formas de crear arreglos NumPy. Una forma es proporcionar una lista (anidada) como parámetro para el constructor array:

In [None]:
np.array(10).shape

()

Ten en cuenta que al omitir los corchetes de la expresión anterior, es decir, al llamar a `np.array(1,2,3)`, se producirá un error. Se puede dar un arreglo bidimensional enumerando las filas de los
arrays:


In [None]:
np.array([[1,2,3], [4,5,6]]).shape

(2, 3)

De manera similar, la matriz tridimensional se puede describir como una lista de listas de listas:

In [None]:
np.array([[[1,2], [3,4]], [[5,6], [7,8]]])

(2, 2, 2)

In [None]:
np.array([[[1,2], [3,4]], [[5,6], [7,8]]])

array([[[1, 2],
        [3, 4]],

       [[5, 6],
        [7, 8]]])

Hay algunas funciones auxiliares para crear tipos comunes de arreglos:

In [None]:
np.zeros((3,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
np.zeros((3,4), dtype=int)

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

De manera similar, `ones` inicializa todos los elementos a uno, `full` inicializa todos los elementos a un valor específico y `empty` deja los elementos sin inicializar:

In [None]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [None]:
np.full((2,3), fill_value=7)

array([[7, 7, 7],
       [7, 7, 7]])

In [None]:
np.empty((2,4))

array([[1.2, 2.4, 3.5, 4.7],
       [6.1, 7.2, 8.3, 9.5]])

La función **eye** crea la matriz de identidad, es decir, una matriz con elementos en la diagonal se establece en uno, y los elementos no diagonales se establecen en cero:

In [None]:
np.eye(5, dtype=int)

array([[1, 0, 0, 0, 0],
       [0, 1, 0, 0, 0],
       [0, 0, 1, 0, 0],
       [0, 0, 0, 1, 0],
       [0, 0, 0, 0, 1]])

La función `arange` funciona como la función `range`, pero produce una matriz en lugar de una lista.

In [None]:
np.arange(0,10,2)

array([0, 2, 4, 6, 8])

Para rangos no enteros es mejor usar `linspace`:

In [None]:
np.linspace(0, np.pi, 5)  # Evenly spaced range with 5 elements

array([0.        , 0.78539816, 1.57079633, 2.35619449, 3.14159265])

Con `linspace` uno no tiene que calcular la longitud del paso, sino que uno especifica el número deseado de elementos. De forma predeterminada, el punto final se incluye en el resultado, a diferencia de `arange`.

### Matrices con elementos aleatorios

Para probar nuestros programas, podríamos usar datos reales como entrada. Sin embargo, los datos reales no siempre están disponibles y puede llevar tiempo recopilarlos. En su lugar, podríamos generar números aleatorios para usarlos como sustitutos. Se pueden generar muy fácilmente con NumPy y se pueden muestrear de varias distribuciones diferentes, de las cuales mencionamos a continuación solo algunas. Los datos aleatorios pueden simular datos reales mejor que, por ejemplo, rangos o matrices constantes. A veces también necesitamos números aleatorios en nuestros programas para elegir un subconjunto de datos reales (muestreo). NumPy puede producir fácilmente matrices de formas deseadas llenas de números aleatorios. A continuación se muestran algunos ejemplos.

In [None]:
np.random.random((3,4))      # Elements are uniformly distributed from half-open interval [0.0,1.0)

array([[0.38406155, 0.17914408, 0.14276733, 0.98432458],
       [0.3745162 , 0.12064471, 0.6539686 , 0.54081648],
       [0.41342022, 0.31419336, 0.34409813, 0.88015853]])

In [None]:
np.random.normal(0, 1, (3,4))    # Elements are normally distributed with mean 0 and standard deviation 1

array([[-0.3172106 , -1.07248899,  1.5777041 , -1.09470008],
       [ 1.60947431, -0.65848833, -0.36211328, -0.17479202],
       [-0.8650561 ,  0.74617362, -0.95365254, -2.61769956]])

In [None]:
np.random.randint(-2, 10, (3,4))  # Elements are uniformly distributed integers from the half-open interval [-2,10)

array([[ 0, -1,  0,  5],
       [ 0,  8,  9,  2],
       [ 8,  7, -2,  1]])

A veces es útil poder recrear exactamente los mismos datos en cada ejecución de nuestro programa. Por ejemplo, si hay un error en nuestro programa, que se manifiesta solo con cierta entrada, entonces para depurar nuestro programa debe comportarse de manera determinista. Podemos crear números aleatorios de forma determinista, si partimos siempre del mismo punto de partida. Este punto de partida suele ser un número entero, y lo llamamos *semilla/SEED*. Ejemplo de uso:

In [None]:
np.random.seed(0)
print(np.random.randint(0, 100, 10))
print(np.random.normal(0, 1, 10))

[44 47 64 67 67  9 83 21 36 87]
[ 1.26611853 -0.50587654  2.54520078  1.08081191  0.48431215  0.57914048
 -0.18158257  1.41020463 -0.37447169  0.27519832]


Si ejecutas la celda anterior varias veces, siempre dará los mismos números, a diferencia de los ejemplos anteriores. ¡Intenta volver a ejecutarlos ahora!





## Tipos y atributos de arreglos

Un array tiene varios atributos: `ndim` indica el número de dimensiones, `shape` indica el tamaño en cada dimensión, `size` indica el número de elementos y `dtype` indica el tipo de elemento. 





In [None]:
def info(name, a):
    print(f"{name} has dim {a.ndim}, shape {a.shape}, size {a.size}, and dtype {a.dtype}:")
    print(a)

In [None]:
b=np.array([[1,2,3], [4,5,6]])
info("b", b)

b has dim 2, shape (2, 3), size 6, and dtype int64:
[[1 2 3]
 [4 5 6]]


Ten en cuenta cómo Python imprimió el arreglo tridimensional en el ejemplo anterior. Las reglas generales para imprimir un arreglo de n dimensiones como una lista anidada son:

- la última dimensión se imprime de izquierda a derecha,

- la penúltima se imprime de arriba a abajo,

- el resto también se imprime de arriba a abajo, con cada rebanada separada de la siguiente por una línea vacía.




## Indexing, slicing and reshaping

### Indexing

Un arreglo unidimensional se comporta como una lista en Python.


In [None]:
a=np.array([1,4,2,7,9,5])
print(a[1])
print(a[-2])

4
9


Para un arreglo multidimensional, el índice es una tupla separada por comas en lugar de un solo entero.





In [None]:
b=np.array([[1,2,3], [4,5,6]])
print(b)
print(b[1,2])    # row index 1, column index 2
print(b[0,-1])   # row index 0, column index -1

[[1 2 3]
 [4 5 6]]
6
3


In [None]:
# As with lists, modification through indexing is possible
b[0,0] = 10
print(b)

[[10  2  3]
 [ 4  5  6]]


Ten en cuenta que si solo das un índice a un arreglo multidimensional, indexa la primera dimensión del arreglo, que son las filas. Por ejemplo:





In [None]:
print(b[0])    # First row
print(b[1])    # Second row

[10  2  3]
[4 5 6]


#### Slicing

El slicing funciona de manera similar a las listas, pero ahora podemos tener slices en diferentes dimensiones:

In [None]:
print(a)
print(a[1:3])
print(a[::-1])    # Reverses the array

[1 4 2 7 9 5]
[4 2]
[5 9 7 2 4 1]


In [None]:
print(b)
print(b[:,0])
print(b[0,:])
print(b[:,1:])

[[10  2  3]
 [ 4  5  6]]
[10  4]
[10  2  3]
[[2 3]
 [5 6]]


Incluso podemos asignar a un slice:





In [None]:
b[:,1:] = 7
print(b)

[[10  7  7]
 [ 4  7  7]]


Un forma muy común es extraer filas o columnas de un arreglo:


In [None]:
print(b[:,0])    # First column
print(b[1,:])    # Second row

### **Reshaping**

Cuando se cambia la forma de un arreglo, su número de elementos permanece igual, pero se reinterpretan para tener una forma diferente. Un ejemplo de esto es interpretar un arreglo unidimensional como un arreglo bidimensional:

In [None]:
a=np.arange(9)
anew=a.reshape(3,3)
info("anew", anew)
info("a", a)

anew has dim 2, shape (3, 3), size 9, and dtype int64:
[[0 1 2]
 [3 4 5]
 [6 7 8]]
a has dim 1, shape (9,), size 9, and dtype int64:
[0 1 2 3 4 5 6 7 8]


In [None]:
d=np.arange(4)             # 1d array
dr=d.reshape(1,4)          # row vector
dc=d.reshape(4,1)          # column vector
info("d", d)
info("dr", dr)
info("dc", dc)

d has dim 1, shape (4,), size 4, and dtype int64:
[0 1 2 3]
dr has dim 2, shape (1, 4), size 4, and dtype int64:
[[0 1 2 3]]
dc has dim 2, shape (4, 1), size 4, and dtype int64:
[[0]
 [1]
 [2]
 [3]]


<div class="alert alert-warning">
Ten en cuenta que el arreglo unidimensional y los vectores de fila y columna, que son arreglos bidimensionales, son objetos fundamentalmente diferentes, aunque parecen similares. Se comportan de manera diferente cuando combinamos u operamos arreglos de formas diferentes, como veremos en la siguiente sección y más adelante en este material.
</div>

Una sintaxis alternativa para crear, por ejemplo, vectores de columna o fila, es a través de la palabra clave `np.newaxis`. A veces esto es más fácil o más natural que con el método reshape:





In [None]:
info("d", d)
info("drow", d[:, np.newaxis])
info("drow", d[np.newaxis, :])
info("dcol", d[:, np.newaxis])

d has dim 1, shape (4,), size 4, and dtype int64:
[0 1 2 3]
drow has dim 2, shape (4, 1), size 4, and dtype int64:
[[0]
 [1]
 [2]
 [3]]
drow has dim 2, shape (1, 4), size 4, and dtype int64:
[[0 1 2 3]]
dcol has dim 2, shape (4, 1), size 4, and dtype int64:
[[0]
 [1]
 [2]
 [3]]


### **Array concatenation, splitting and stacking**

Existen dos formas de combinar varios arrays en uno más grande: `concatenate` y `stack`. Concatenate toma arrays n-dimensionales y devuelve un array n-dimensional, mientras que stack toma arrays n-dimensionales y devuelve un array n+1-dimensional. Aquí te mostramos algunos ejemplos:

In [None]:
a=np.arange(2)
b=np.arange(2,5)
print(f"a has shape {a.shape}: {a}")
print(f"b has shape {b.shape}: {b}")
np.concatenate((a,b))  # concatenating 1d arrays

a has shape (2,): [0 1]
b has shape (3,): [2 3 4]


array([0, 1, 2, 3, 4])

In [None]:
c=np.arange(1,5).reshape(2,2)
print(f"c has shape {c.shape}:", c, sep="\n")
np.concatenate((c,c))   # concatenating 2d arrays

c has shape (2, 2):
[[1 2]
 [3 4]]


array([[1, 2],
       [3, 4],
       [1, 2],
       [3, 4]])

Por defecto, `concatenate` une los arrays a lo largo del eje 0. Para unir los arrays horizontalmente, agregue el parámetro `axis=1`:


In [None]:
np.concatenate((c,c), axis=1)

array([[1, 2, 1, 2],
       [3, 4, 3, 4]])

Si deseas concatenar arreglos con diferentes dimensiones, por ejemplo para agregar una nueva columna a un arreglo de 2d, primero debes remodelar los arreglos para que tengan el mismo número de dimensiones:





In [None]:
print("New row:")
print(np.concatenate((c,a.reshape(1,2))))
print("New column:")
print(np.concatenate((c,a.reshape(2,1)), axis=1))

New row:
[[1 2]
 [3 4]
 [0 1]]
New column:
[[1 2 0]
 [3 4 1]]


Usa `stack` para crear arrays de dimensiones superiores a partir de arrays de dimensiones inferiores:

In [None]:
np.stack((b,b))

array([[2, 3, 4],
       [2, 3, 4]])

In [None]:
np.stack((b,b), axis=1)

array([[2, 2],
       [3, 3],
       [4, 4]])

Operación inversa de `concatenate` es split. Su argumento especifica la cantidad de partes iguales en que se divide el array, o especifica explícitamente los puntos de división.

In [None]:
d=np.arange(12).reshape(6,2)
print("d:")
print(d)
d1,d2 = np.split(d, 2)
print("d1:")
print(d1)
print("d2:")
print(d2)

In [None]:
d=np.arange(12).reshape(2,6)
print("d:")
print(d)
parts=np.split(d, (2,3,5), axis=1)
for i, p in enumerate(parts):
    print("part %i:" % i)
    print(p)

d:
[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
part 0:
[[0 1]
 [6 7]]
part 1:
[[2]
 [8]]
part 2:
[[ 3  4]
 [ 9 10]]
part 3:
[[ 5]
 [11]]


## Fast computation using universal functions

Además de proporcionar una forma de almacenar y acceder a matrices multidimensionales, NumPy también proporciona varias rutinas para realizar cálculos en ellas. Una de las razones de la popularidad de NumPy es que estos cálculos pueden ser muy eficientes, mucho más eficientes de lo que Python puede hacer normalmente. Los mayores cuellos de botella en la eficiencia son los bucles, que pueden iterarse millones, miles de millones o incluso más veces. Los bucles deben ser lo más eficientes posible. Lo que ralentiza los bucles en Python es el hecho de que Python es un lenguaje dinámicamente tipado. Eso significa que en cada expresión, Python tiene que averiguar los tipos de los argumentos de las operaciones. Consideremos el siguiente bucle:





In [None]:
L=[1, 5.2, "ab"]
L2=[]
for x in L:
    L2.append(x*2)
print(L2)

[2, 10.4, 'abab']


En cada iteración de este bucle, Python debe determinar el tipo de la variable x, que en este ejemplo puede ser un entero, un flotante o una cadena, y según este tipo llamar a una función diferente para realizar la "multiplicación" por dos. Lo que hace eficiente a NumPy es el requisito de que cada elemento en una matriz debe ser del mismo tipo. Esta homogeneidad de matrices hace posible crear operaciones vectorizadas, que no operan en elementos individuales, sino en matrices (o submatrices). El ejemplo anterior que utiliza operaciones vectorizadas de NumPy se muestra a continuación.

In [None]:
a=np.array([2.1, 5.0, 17.2])
a2=a*2
print(a2)

[ 4.2 10.  34.4]


Dado que cada iteración utiliza operaciones idénticas y solo difieren los datos, esto puede compilarse en lenguaje de máquina y luego realizarse en una sola vez, evitando así la escritura dinámica de Python. El nombre de operación vectorial proviene del álgebra lineal, donde la adición de dos vectores $v=(v_1,v_2, \ldots, v_d)$ y $w=(w_1,w_2, \ldots, w_d)$ se define elemento por elemento como $v+w = (v_1 + w_1,v_2 + w_2, \ldots, v_d + w_d)$.

Además de la adición, hay varias funciones matemáticas definidas en forma de vector. Las operaciones aritméticas básicas son: adición `+`, sustracción `-`, negación `-`, multiplicación `*`, división `/`, división de piso `//`, exponenciación `**` y resto `%`.

Estas operaciones pueden combinarse en expresiones más complicadas. Un ejemplo:





In [None]:
b=np.array([-1, 3.2, 2.4])
print(-a**2 * b)

Varias otras funciones matemáticas también están definidas. A continuación se pueden encontrar algunos ejemplos de estas:

In [None]:
print(np.abs(b))
print(np.cos(b))
print(np.exp(b))
print(np.log2(np.abs(b)))

En la nomenclatura de NumPy, estas operaciones vectoriales se llaman ufuncs (funciones universales).

## Aggregations: max, min, sum, mean, standard deviation...

Las agregaciones nos permiten condensar la información en una matriz en solo algunos números.

In [None]:
np.random.seed(0)
a=np.random.randint(-100, 100, (4,5))
print(a)
print(f"Minimum: {a.min()}, maximum: {a.max()}")
print(f"Sum: {a.sum()}")
print(f"Mean: {a.mean()}, standard deviation: {a.std()}")

En lugar de agregar sobre toda la matriz, también podemos agregar solo sobre ciertos ejes:

In [None]:
np.random.seed(9)
b=np.random.randint(0, 10, (3,4))
print(b)
print("Column sums:", b.sum(axis=0))
print("Row sums:", b.sum(axis=1))

![aggregation](https://raw.githubusercontent.com/csmastersUH/data_analysis_with_python_2020/master/aggregation.svg)

<div class="alert alert-warning">
Tenga en cuenta que la mayoría de las funciones de agregación en NumPy tienen métodos correspondientes. Además, el lenguaje Python tiene funciones integradas `sum`, `min`, `max`, `any` y `all` para secuencias. Asegúrese de no usarlos accidentalmente para matrices, ya que pueden tener semánticas ligeramente diferentes y ser significativamente más lentos que las funciones y métodos de NumPy.
</div>

| Python function | NumPy function | NumPy method |
| ----- | -------------- | ------------ |
| sum   | np.sum         | a.sum |
| -     | np.prod        | a.prod |
| -     | np.mean        | a.mean |
| -     | np.std         | a.std |
| -     | np.var         | a.var |
| min   | np.min         | a.min |
| max   | np.max         | a.max |
| -     | np.argmin      | a.argmin |
| -     | np.argmax      | a.argmax |
| -     | np.median      | - |
| -     | np.percentile  | - |
| any   | np.any         | a.any |
| all   | np.all         | a.all |

 

Vamos a medir cuánto más lenta es la función `sum` de Python en comparación con su equivalente en NumPy cuando se agregan elementos en una matriz:

In [None]:
a=np.arange(1000)
%timeit np.sum(a)

In [None]:
%timeit sum(a)

La velocidad de NumPy se debe en parte al hecho de que sus matrices deben tener el mismo tipo para todos sus elementos. Este requisito permite algunas optimizaciones eficientes.

## Broadcasting

Hemos visto que NumPy permite operaciones de matrices que se realizan elemento a elemento. Pero NumPy también permite operaciones binarias que no requieren que las dos matrices tengan la misma forma. Por ejemplo, podemos agregar 4 a todos los elementos de una matriz con la siguiente expresión:

In [None]:
import numpy as np

In [None]:
np.arange(3) + np.array([4])

array([4, 5, 6])

De hecho, debido a que una matriz con solo un elemento, digamos 4, puede considerarse como un escalar 4, NumPy permite la siguiente expresión, que es equivalente a la anterior:





In [None]:
np.arange(3) + 4

Para tener una idea de qué operaciones se permiten, es decir, qué formas de las dos matrices son compatibles, puede ser útil pensar que antes de que se realice la operación binaria, NumPy intenta estirar las matrices para que tengan la misma forma. Por ejemplo, en el ejemplo anterior, NumPy primero estiró la matriz `np.array([4])` (o el escalar 4) a la matriz `np.array([4,4,4])` y luego realizó la adición elemento a elemento. En NumPy, este estiramiento se llama broadcasting.

![broadcast](https://raw.githubusercontent.com/csmastersUH/data_analysis_with_python_2020/master/broadcast.svg)

Las matrices argumento pueden tener, por supuesto, dimensiones superiores, como muestra el siguiente ejemplo:





In [None]:
a=np.full((3,3), 5)
b=np.arange(3)
print("a:", a, sep="\n")
print("b:", b)
print("a+b:", a+b, sep="\n")

a:
[[5 5 5]
 [5 5 5]
 [5 5 5]]
b: [0 1 2]
a+b:
[[5 6 7]
 [5 6 7]
 [5 6 7]]


En este ejemplo el segundo argumento fue "broadcasted" al array inicial.

In [None]:
np.array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

array([[0, 1, 2],
       [0, 1, 2],
       [0, 1, 2]])

y luego se realizó la adición. Y puede ser que ambas matrices argumento deban ser difundidas como en el siguiente ejemplo:





In [None]:
a=np.arange(3)
b=np.arange(3).reshape((3,1))
info("a", a)
info("b", b)
info("a+b", a+b)

Para ver a qué se difundieron los argumentos antes de la operación binaria, se puede usar la función `np.broadcast_arrays`:


In [None]:
broadcasted_a, broadcasted_b = np.broadcast_arrays(a,b)
info("broadcasted_a", broadcasted_a)
info("broadcasted_b", broadcasted_b)

Entonces, ambas matrices se difundieron, pero de diferentes maneras. A continuación, revisaremos las reglas de cómo funciona la difusión.

1. Todas las matrices de entrada con ndim menor que la matriz de entrada con el mayor ndim, tienen 1 como prefijo en sus formas.

2. El tamaño en cada dimensión de la forma de salida es el máximo de todos los tamaños de entrada en esa dimensión.

3. Una entrada se puede usar en el cálculo si su tamaño en una dimensión particular coincide con el tamaño de salida en esa dimensión, o tiene un valor exactamente igual a 1.

4. Si una entrada tiene un tamaño de dimensión de 1 en su forma, la primera entrada de datos en esa dimensión se usará para todos los cálculos a lo largo de esa dimensión. En otras palabras, el mecanismo de avance de la función universal simplemente no avanzará a lo largo de esa dimensión (la longitud de paso será 0 para esa dimensión).


