# [<font size="10">NumPy<font>](http://www.numpy.org) $:=$ `Numerical Python` 

<img src="./images/NumPy_logo.svg" />

Según la [página](http://www.numpy.org) oficial (traducción): **NumPy** es el paquete fundamental para la computación científica con Python. Contiene entre otras cosas:

* Un poderoso objeto de matriz N-dimensional.
* Funciones sofisticadas.
* Herramientas para la integración de código C/C++ y Fortran.
* Álgebra lineal útil, transformada de Fourier y capacidades de números aleatorios.

Además de sus obvios usos científicos, NumPy también se puede usar como un eficiente contenedor multidimensional de datos genéricos. Se pueden definir tipos de datos arbitrarios. Esto permite que NumPy se integre a la perfección con una amplia variedad de bases de datos.

La versiones de desarrollo más recientes están disponibles a través de los repositorios oficiales alojados en [Github](https://github.com/numpy/numpy).

# ¿Cómo instalar NumPy?

Puede instalarse tipeando en la terminal:

* `conda install numpy`
* `git clone https://github.com/numpy/numpy.git`

# ¿Cómo utilizar NumPy?

La manera recomendada es cargar **NumPy** como se hace a continuación: 

In [1]:
import numpy as np

In [1]:
from numpy import *

In [4]:
cos?

In [3]:
from math import *

In [138]:
np

<module 'numpy' from '/Users/estebanvohringer-martinez/opt/anaconda3/lib/python3.8/site-packages/numpy/__init__.py'>

In [139]:
np?

Teniendo Numpy cargado, averiguemos el número de versión instalada.

In [140]:
np.__version__

'1.19.2'

# ¿Qué nos provee Numpy?

La documentación oficial se encuentra [aquí](https://docs.scipy.org/doc/).

Recientemente también fue publicado un artículo científico sobre numpy en la revista *Nature*
 [Array programming with NumPy](https://www.nature.com/articles/s41586-020-2649-2)

# Números populares

#### Número [$\pi$](https://es.wikipedia.org/wiki/Número_π)

<img src="./images/NUMERO_PI.jpg" />

In [141]:
np.pi

3.141592653589793

In [142]:
#Averiguamos el tipo de variable
type(np.pi)

float

#### Número [$e$](https://es.wikipedia.org/wiki/Número_e)

<img src="./images/napier_10000.svg" />

In [143]:
np.e

2.718281828459045

In [144]:
#Averiguamos el tipo de variable
type(np.e)

float

In [145]:
x = np.pi
y = np.float64(np.pi)

In [146]:
x,y

(3.141592653589793, 3.141592653589793)

In [148]:
id(np.pi),id(x),id(y)

(4489880720, 4489880720, 4754271696)

#### np.binary_repr()

In [149]:
np.binary_repr(-3)#solo funciona con números enteros

'-11'

In [150]:
np.binary_repr(np.pi)

TypeError: 'float' object cannot be interpreted as an integer

# Arreglos

En el paquete `NumPy` la terminología usada para vectores, matrices y conjuntos de datos de dimensión mayor es la de un  `array` (arreglo). 

<img src='./images/1_O2_46c16UdgmXzen4VktMg.png' title= https://towardsdatascience.com/two-cool-features-of-python-numpy-mutating-by-slicing-and-broadcasting-3b0b86e8b4c7 />

## Creando arreglos de `NumPy`

Existen varias formas para inicializar nuevos arreglos de `NumPy`, por ejemplo desde

* Listas o tuplas Python.
* Usando funciones dedicadas a generar arreglos `NumPy`, como `np.arange`, `np.linspace`, etc.
* Leyendo datos desde archivos.

### Creación de un vector (arreglo 1D)

Por ejemplo, para crear nuevos arreglos de matrices y vectores desde listas Python podemos usar la función `numpy.array`.

In [151]:
#creando una lista
lista = [1, 2, 3, 4]

In [152]:
type(lista)

list

In [153]:
# un vector: el argumento de la función array es una lista de Python
array1d = np.array(lista)
array1d

array([1, 2, 3, 4])

In [154]:
type(array1d)

numpy.ndarray

## Indexado de vector

Imprimimos componentes de la lista creada.

In [155]:
lista[0]

1

In [156]:
lista[1]

2

In [157]:
array1d[0]

1

In [158]:
array1d[4]

IndexError: index 4 is out of bounds for axis 0 with size 4

Hasta el momento el arreglo `np.ndarray` luce como una lista Python (anidada). Entonces, ¿por qué simplemente no usar listas para hacer cálculos en lugar de crear un tipo nuevo de arreglo? 

Existen varias razones:

* Las listas Python son muy generales. Ellas pueden contener cualquier tipo de objeto. Sus tipos son asignados dinámicamente. Ellas no permiten usar funciones matemáticas tales como la multiplicación de matrices, el producto escalar, etc. El implementar tales funciones para las listas Python no sería muy eficiente debido a la asignación dinámica de su tipo.
* Los arreglos Numpy tienen tipo **estático** y **homogéneo**. El tipo de elementos es determinado cuando se crea el arreglo.
* Los arreglos Numpy son eficientes en el uso de memoria.
* Debido a su tipo estático, se pueden desarrollar implementaciones rápidas de funciones matemáticas tales como la multiplicación y la suma de arreglos `NumPy` usando lenguajes compilados (se usan C y Fortran).

## ¿Un vector es igual a una lista?

No. Las operaciones permitidas para las listas son diferentes a las que poseen los vectores. Justifiquemos...

In [159]:
array1d is lista

False

In [161]:
lista == array1d

array([ True,  True,  True,  True])

In [162]:
3*lista

[1, 2, 3, 4, 1, 2, 3, 4, 1, 2, 3, 4]

In [163]:
3*array1d

array([ 3,  6,  9, 12])

In [164]:
#Definimos dos listas
l01 = [1, 2, 3]
l02 = [4, 5, 6]
l03 = [7, 8, 9, 10, 11]

In [165]:
#Suma de listas
l01 + l02

[1, 2, 3, 4, 5, 6]

In [166]:
#Suma de listas
l01 + l03

[1, 2, 3, 7, 8, 9, 10, 11]

In [167]:
#Suma de listas
l01 + l02 + l03

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11]

In [168]:
#Definimos dos vectores
v01 = np.array(l01)
v02 = np.array(l02)
v03 = np.array(l03)

In [169]:
v01

array([1, 2, 3])

In [170]:
v02

array([4, 5, 6])

In [171]:
v03

array([ 7,  8,  9, 10, 11])

In [172]:
#Suma de vectores
v01 + v02

array([5, 7, 9])

In [173]:
#Suma de vectores
v01 + v03

ValueError: operands could not be broadcast together with shapes (3,) (5,) 

In [174]:
#Suma de vectores
v01 + v02 + v03

ValueError: operands could not be broadcast together with shapes (3,) (5,) 

### Análisis de las dimensiones de arreglos 

Podemos obtener información de la forma (*shape = longitud de dimensiones puestas en una tupla*) de un arreglo usando la propiedad `ndarray.shape`.

In [180]:
np.shape(v01)

(3,)

In [181]:
#np.shape?

O equivalentemente.

In [182]:
v01.shape

(3,)

In [183]:
v02.shape

(3,)

In [184]:
v03.shape

(5,)

Los vectores sólo se pueden sumar si tienen la misma forma.

El número de elementos de un arreglo puede obtenerse usando la propiedad `ndarray.size`:

In [185]:
np.size(v01)

3

O equivalentemente.

In [186]:
v01.size

3

In [187]:
v02.size

3

In [188]:
v03.size

5

La dimensión de un arreglo se puede obtener con `ndarray.ndim`


In [189]:
v03.ndim

1

Operaciones con arreglos y sus diferencias con listas

In [190]:
# Multiplicando listas
l01*l02

TypeError: can't multiply sequence by non-int of type 'list'

In [191]:
#Multiplicando vectores
v01*v02

array([ 4, 10, 18])

In [192]:
#Multiplicando vectores
v01*v03

ValueError: operands could not be broadcast together with shapes (3,) (5,) 

Las listas no se pueden multiplicar, mientras que los vectores sí. La multiplicación se realiza elemento a elemento y sólo si poseen la misma forma.

In [193]:
# Dividiendo listas
l01/l02

TypeError: unsupported operand type(s) for /: 'list' and 'list'

In [194]:
#Dividiendo vectores
v01/v02

array([0.25, 0.4 , 0.5 ])

In [195]:
#Dividiendo vectores
v01/v03

ValueError: operands could not be broadcast together with shapes (3,) (5,) 

Las listas no se pueden dividir, mientras que los vectores sí. La división se realiza elemento a elemento y sólo si poseen la misma forma.

### Operaciones escalar-arreglo

Podemos usar los operadores aritméticos usuales para multiplicar, sumar, restar, y dividir arreglos por números (escalares).

In [196]:
escalar = 3
#escalar = 3.
escalar*array1d

array([ 3,  6,  9, 12])

In [197]:
array1d+escalar

array([4, 5, 6, 7])

### Operaciones elemento a elemento entre arreglos

Cuando sumamos, sustraemos, multiplicamos y dividimos dos arreglos, el comportamiento por defecto es operar *elemento a elemento*:

In [198]:
# elevar al cuadrado
array1d**2

array([ 1,  4,  9, 16])

In [199]:
# tangente
np.tan(array1d)

array([ 1.55740772, -2.18503986, -0.14254654,  1.15782128])

In [200]:
# exponencial
np.exp(array1d)

array([ 2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [201]:
# coseno
np.cos(array1d)

array([ 0.54030231, -0.41614684, -0.9899925 , -0.65364362])

In [202]:
# raíz cuadrada
array1d**0.5

array([1.        , 1.41421356, 1.73205081, 2.        ])

In [203]:
# raíz cuadrada
np.sqrt(array1d)

array([1.        , 1.41421356, 1.73205081, 2.        ])

# Creando un arreglo 2D

In [204]:
#Creando lista anidada
lista_anidada = [l01, l02]
#lista_anidada = [l01, [4., 5., 6.]]
lista_anidada

[[1, 2, 3], [4, 5, 6]]

In [205]:
#Creando un arreglo 2D: el argumento de la función np.array es una lista anidada de Python
array2d = np.array(lista_anidada)
array2d

array([[1, 2, 3],
       [4, 5, 6]])

Usando la propiedad `dtype` (tipo de dato) de un `ndarray`, podemos ver qué tipo de dato contiene un arreglo:

In [206]:
array1d.dtype, array2d.dtype
#Volver a definir matriz

(dtype('int64'), dtype('int64'))

In [207]:
#Tipo de array1d y array2d
type(array1d), type(array2d)

(numpy.ndarray, numpy.ndarray)

Los objetos `array1d` y `array2d` son ambos del tipo `ndarray` que provee el módulo `NumPy`.

In [208]:
#Forma de array1d y array2d
array1d.shape, array2d.shape

((4,), (2, 3))

In [209]:
#Tamaño de array1d y array2d
array1d.size, array2d.size

(4, 6)

# Indexado y visualización de arreglos multidimensionales

<img src='./images/1_Ikn1J6siiiCSk4ivYUhdgw.png' title= https://medium.com/datadriveninvestor/artificial-intelligence-series-part-2-numpy-walkthrough-64461f26af4f />

In [210]:
%matplotlib notebook
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D 
plt.rcParams['font.family'] = 'serif'

#### 1D array

In [211]:
array1d = np.array([7, 2, 9, 10])
array1d

array([ 7,  2,  9, 10])

In [212]:
array1d.ndim

1

In [213]:
array1d.shape

(4,)

`array1d` es un vector, tiene por lo tanto sólo una dimensión, y requiere un índice.

In [214]:
plt.figure(figsize=(6,6))
plt.plot(array1d,'o')
plt.grid()
plt.xlabel(r'Indice $i$',fontsize=18)
plt.ylabel(r'Elemts  en arreglo 1D',fontsize=18)

<IPython.core.display.Javascript object>

Text(0, 0.5, 'Elemts  en arreglo 1D')

In [215]:
array1d[0]

7

In [216]:
array1d[0], array1d[1], array1d[2], array1d[3] #,array1d[4]

(7, 2, 9, 10)

In [217]:
for i in range(4):
    print(i, array1d[i])
#    print('array1d[%s] = %2.1f'%(i, array1d[i]))

0 7
1 2
2 9
3 10


Se pueden sumar los elementos de un arreglo 1D así:

In [218]:
sum(array1d)

28

In [220]:
np.sum(array1d)

28

In [228]:
array1d.sum()

28

Se pueden multiplicar los elementos de un arreglo 1D así:

In [229]:
np.prod(array1d)

1260

In [230]:
#suma acumulada
np.cumsum(array1d)

array([ 7,  9, 18, 28])

In [231]:
#producto acumulado
np.cumproduct(array1d)

array([   7,   14,  126, 1260])

#### 2D array

In [232]:
array2d = np.array([[5.2, 3.0, 4.5],
                   [9.1, 0.1, 0.3]])
array2d

array([[5.2, 3. , 4.5],
       [9.1, 0.1, 0.3]])

In [234]:
array2d.ndim

2

In [235]:
array2d.shape

(2, 3)

`array2d` es una matriz, es decir un arreglo bidimensional, requiere dos índices.

In [236]:
#Imprime elementos de fila = 0 contada desde arriba hacia abajo
array2d[0,0], array2d[0,1], array2d[0,2]

(5.2, 3.0, 4.5)

In [237]:
#Imprime elementos de fila = 1 contada desde arriba hacia abajo
array2d[1,0], array2d[1,1], array2d[1,2]

(9.1, 0.1, 0.3)

In [238]:
#La fila = 2 no está definida
array2d[2,0]

IndexError: index 2 is out of bounds for axis 0 with size 2

In [239]:
for i in range(2):
    for j in range(3):
        print(i,j,array2d[i,j])
#        print('array2d[%s,%s] = %2.1f'%(i, j, array2d[i, j]))

0 0 5.2
0 1 3.0
0 2 4.5
1 0 9.1
1 1 0.1
1 2 0.3


también se puede iterar sobre un arreglo; siempre se realiza sobre axis=0

In [241]:
for i in array2d:
    print(i)

[5.2 3.  4.5]
[9.1 0.1 0.3]


Se pueden sumar los elementos de un arreglo 2D así:

In [242]:
array2d.sum()

22.2

Se pueden sumar los elementos del `axis=0` de un arreglo 2D así:

In [243]:
#Suma elementos sobre axis=0
array2d.sum(axis=0)

array([14.3,  3.1,  4.8])

Se pueden sumar los elementos del `axis=1` de un arreglo 2D así:

In [244]:
#Suma elementos sobre axis=1
array2d.sum(axis=1)

array([12.7,  9.5])

Note que:

In [245]:
array2d.sum(axis=0).sum(), array2d.sum(axis=1).sum() #Es la suma de todos los elementos del arreglo

(22.200000000000003, 22.2)

Similarmente:

In [246]:
np.prod(array2d,axis=0), np.prod(array2d,axis=1)

(array([47.32,  0.3 ,  1.35]), array([70.2  ,  0.273]))

#### 3D array

In [247]:
array3d = np.array([[[1,2], [4,3], [7,4]],
                   [[2,3], [9,8], [7,5]],
                   [[1,2], [3,2], [0,2]],
                   [[9,10], [6,5], [9,8]]])
array3d

array([[[ 1,  2],
        [ 4,  3],
        [ 7,  4]],

       [[ 2,  3],
        [ 9,  8],
        [ 7,  5]],

       [[ 1,  2],
        [ 3,  2],
        [ 0,  2]],

       [[ 9, 10],
        [ 6,  5],
        [ 9,  8]]])

In [248]:
array3d.shape

(4, 3, 2)

`array3d` es una "paralelepípedo rectangular", es decir un arreglo tridimensional, requiere tres índices.

In [249]:
array3d[1,1,0]

9

In [None]:
# Se varía axis=0
j = 0 
k = 0
array3d[0,j,k], array3d[1,j,k], array3d[2,j,k], array3d[3,j,k]

In [None]:
# Se varía axis=0
j = 0 
k = 1
array3d[0,j,k], array3d[1,j,k], array3d[2,j,k], array3d[3,j,k]

In [None]:
# Se varía axis=0 y se saca de rango
j = 0 
k = 2
array3d[0,j,k], array3d[1,j,k], array3d[2,j,k], array3d[3,j,k]

In [None]:
# Se varía axis=1
i = 0
k = 0
array3d[i,0,k], array3d[i,1,k], array3d[i,2,k]

In [None]:
# Se varía axis=1
i = 1
k = 0
array3d[i,0,k], array3d[i,1,k], array3d[i,2,k]

In [None]:
# Se varía axis=1
i = 2
k = 0
array3d[i,0,k], array3d[i,1,k], array3d[i,2,k]

In [None]:
# Se varía axis=1
i = 3
k = 0
array3d[i,0,k], array3d[i,1,k], array3d[i,2,k]

In [None]:
for i in range(4):
    for j in range(3):
        for k in range(2):
            print(i, j, k, array3d[i, j, k])
#            print('array3d[%s,%s,%s] = %d'%(i, j, k, array3d[i, j, k]))

In [None]:
#Comparando los 3 arreglos multidimensionales.

In [None]:
array1d.itemsize, array2d.itemsize, array3d.itemsize # los bits de cada elemento

In [None]:
array1d.nbytes, array2d.nbytes, array3d.nbytes # número de bytes

In [None]:
array1d.ndim, array2d.ndim, array3d.ndim # número de dimensiones

## Reasignando elementos de arreglo

In [250]:
array1d

array([ 7,  2,  9, 10])

In [251]:
array1d[1] = 30.

In [252]:
array1d

array([ 7, 30,  9, 10])

Se obtiene un error si intentamos asignar un valor de un tipo equivocado a un elemento de un arreglo numpy:

In [253]:
array2d

array([[5.2, 3. , 4.5],
       [9.1, 0.1, 0.3]])

In [254]:
#Intentando reasignar valor
array2d[0,0] = "Hola Mundo"

ValueError: could not convert string to float: 'Hola Mundo'

In [255]:
#Intentando reasignar valor
array2d[0,0] = [3, 5, 7]

ValueError: setting an array element with a sequence.

In [256]:
#Intentando reasignar valor
array2d[0,0] = (3, 5, 7)

ValueError: setting an array element with a sequence.

Si lo deseamos, podemos definir explícitamente el tipo de datos de un arreglo cuando lo creamos, usando el argumento `dtype`: 

In [257]:
array2d = np.array([[1, 2], [3, 4]], dtype=complex)
array2d

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

Algunos tipos comunes que pueden ser usados con `dtype` son: `int`, `float`, `complex`, `bool`, `object`, etc.

Podemos también definir explícitamente el número de bit de los tipos de datos, por ejemplo: `int64`, `int16`, `float64`, `complex64`.

In [258]:
array2d = np.array([[1, 2], [3, 4]], dtype=np.complex64)
array2d

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]], dtype=complex64)

In [259]:
array2d = np.array([['a', 'b'], ['c', 'd']])
array2d

array([['a', 'b'],
       ['c', 'd']], dtype='<U1')

In [260]:
array2d = np.array([[1, 'a b c'], [3, 4]])
array2d

array([['1', 'a b c'],
       ['3', '4']], dtype='<U21')

In [261]:
array2d = np.array([[1, 'a b c'], [3, array1d]])
array2d

  array2d = np.array([[1, 'a b c'], [3, array1d]])


array([[1, 'a b c'],
       [3, array([ 7, 30,  9, 10])]], dtype=object)

In [None]:
array2d = np.array([[1, 'a b c'], [[7,5], 4]])
array2d

## Corte de índices

Corte (slicing) de índices es el nombre para la sintaxis `M[desde:hasta:paso]` para extraer una parte de un arreglo:

#### 1D

In [262]:
array1d = np.array([1,2,3,4,5])
array1d

array([1, 2, 3, 4, 5])

In [263]:
#recordemos
inicio = 1
final = 3 # end NO es incluido
paso = 1 # 1por defecto
#paso = 2 
array1d[inicio:final:paso]

array([2, 3])

Los cortes de índices son *mutables*: si se les asigna un nuevo valor el arreglo original es modificado:

In [264]:
array1d[1:3] = [-2,-3]
array1d

array([ 1, -2, -3,  4,  5])

Podemos omitir cualquiera de los tres parámetros en  `M[desde:hasta:paso]`:

In [265]:
array1d[::] # desde, hasta y paso asumen los valores por defecto

array([ 1, -2, -3,  4,  5])

In [266]:
array1d[::2] # el paso es 2, desde y hasta se asumen desde el comienzo hasta el fin del arreglo

array([ 1, -3,  5])

In [267]:
array1d[:3] # primeros tres elementos

array([ 1, -2, -3])

In [268]:
array1d[3:] # elementos desde el índice 3

array([4, 5])

Los índices negativos se cuentan desde el fin del arreglo (los índices positivos desde el comienzo):

In [279]:
array1d = np.array([1, 2, 3, 4, 5])

In [280]:
array1d[-1] # el último elemento del arreglo

5

In [281]:
array1d[-3:] # los últimos 3 elementos

array([3, 4, 5])

#### 2D

El corte de índices funciona exactamente del mismo modo para arreglos multidimensionales:

In [282]:
#selecciona fila=0
i = 0
array2d[i,:]

array([1, 'a b c'], dtype=object)

In [283]:
#selecciona fila=1
i = 1
array2d[i,:]

array([3, array([ 7, 30,  9, 10])], dtype=object)

In [284]:
#selecciona col=0
j = 0
array2d[:,j]

array([1, 3], dtype=object)

In [285]:
#selecciona col=1
j = 1
array2d[:,j]

array(['a b c', array([ 7, 30,  9, 10])], dtype=object)

In [286]:
#selecciona col=2
j = 2
array2d[:,j]

IndexError: index 2 is out of bounds for axis 1 with size 2

In [287]:
# Se define matriz con una lista comprimida
array2d = np.array([[n+m*10 for n in range(5)] for m in range(5)])
array2d

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [288]:
# un bloque parte del arreglo original
array2d[1:4, 1:4]

array([[11, 12, 13],
       [21, 22, 23],
       [31, 32, 33]])

In [289]:
# elemento por medio
array2d[::2, ::2]

array([[ 0,  2,  4],
       [20, 22, 24],
       [40, 42, 44]])

#### 3D

In [290]:
#selecciona fila=0
i = 0
array3d[i,:,:]

array([[1, 2],
       [4, 3],
       [7, 4]])

In [291]:
#selecciona col=0
j = 0
array3d[:,j,:]

array([[ 1,  2],
       [ 2,  3],
       [ 1,  2],
       [ 9, 10]])

In [292]:
#selecciona anch=0
k = 0
array3d[:,:,k]

array([[1, 4, 7],
       [2, 9, 7],
       [1, 3, 0],
       [9, 6, 9]])

### Indexado Fancy

Se llama indexado fancy cuando una arreglo o una lista es usado en lugar de un índice: 

In [293]:
array1d = np.array([1, 2, 3, 4, 5])

In [294]:
array1d[1], array1d[2], array1d[3]

(2, 3, 4)

In [295]:
indices_fila = [1, 2, 3]

In [296]:
array1d[indices_fila]

array([2, 3, 4])

In [297]:
array2d[indices_fila]

array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34]])

In [298]:
indices_col = [1, 2, -1] # recuerde que el índice -1 corresponde al último elemento

In [299]:
array1d[indices_col]

array([2, 3, 5])

In [300]:
array2d[indices_col]

array([[10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [40, 41, 42, 43, 44]])

Podemos también usar máscaras de índices: Si la máscara de índice es un arreglo `NumPy` con tipo de dato booleano (`bool`), entonces un elemento es seleccionado (True) o no (False) dependiendo del valor de la máscara de índice en la posición de cada elemento: 

In [301]:
array1d = np.array([n for n in range(5)])
array1d

array([0, 1, 2, 3, 4])

In [302]:
masc_filas00 = [0,2]
array1d[masc_filas00]

array([0, 2])

In [303]:
# lo mismo
masc_fila01 = np.array([True, False, True, False, False])
array1d[masc_fila01]

array([0, 2])

In [304]:
# lo mismo
masc_fila02 = np.array([1,0,1,0,0], dtype=bool)
array1d[masc_fila02]

array([0, 2])

Esta característica es muy útil para seleccionar en forma condicional elementos de un arreglo, usando por ejemplo los operadores de comparación:

In [305]:
array1d = np.arange(0, 10, 0.5)
array1d

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. ,
       6.5, 7. , 7.5, 8. , 8.5, 9. , 9.5])

In [306]:
#masc = (array1d==1)
#masc = (5 < array1d)
#masc = (array1d < 1)
masc = (5 < array1d) * (array1d < 7.5) #ambas condiciones juntas
masc

array([False, False, False, False, False, False, False, False, False,
       False, False,  True,  True,  True,  True, False, False, False,
       False, False])

In [307]:
array1d[masc]

array([5.5, 6. , 6.5, 7. ])

## Funciones para extraer información desde arreglos y para crear nuevos arreglos

#### np.min y np.max

In [308]:
np.min(array1d), np.min(array2d), np.min(array3d)

(0.0, 0, 0)

In [310]:
#otra forma de hacer lo mismo
array1d.min(),array2d.min(),array3d.min()

(0.0, 0, 0)

In [311]:
np.max(array1d), np.max(array2d), np.max(array3d)

(9.5, 44, 10)

In [312]:
#otra forma de hacer lo mismo
array1d.max(),array2d.max(),array3d.max()

(9.5, 44, 10)

#### mean

In [313]:
np.mean(array1d), np.mean(array2d), np.mean(array3d)

(4.75, 22.0, 4.666666666666667)

In [314]:
#otra forma de hacer lo mismo
array1d.mean(),array2d.mean(),array3d.mean()

(4.75, 22.0, 4.666666666666667)

#### Desviación estándar y varianza

In [315]:
np.std(array1d), np.std(array2d), np.std(array3d)

(2.883140648667699, 14.212670403551895, 2.9814239699997196)

In [316]:
np.var(array1d), np.var(array2d), np.var(array3d)

(8.3125, 202.0, 8.88888888888889)

#### np.where

Las máscaras de índices pueden ser convertidas en posiciones de índices usando la función `np.where` (dónde):

In [318]:
indices = np.where(masc)
indices

(array([11, 12, 13, 14]),)

In [319]:
array1d[indices] # este indexado es equivalente al indexado fancy x[masc]

array([5.5, 6. , 6.5, 7. ])

In [320]:
np.where?

#### np.diag

Con la función `np.diag` podemos extraer la diagonal y las subdiagonales de un arreglo:

In [321]:
array2d

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [322]:
np.diag(array2d)

array([ 0, 11, 22, 33, 44])

In [323]:
np.diag(array2d, -1)

array([10, 21, 32, 43])

#### np.take

La función `np.take` es similar al indexado fancy descrito anteriormente:

In [324]:
array1d = np.arange(-3,3)
array1d

array([-3, -2, -1,  0,  1,  2])

In [325]:
#np.take?

In [326]:
indices_fila = [1, 3, 5]
array1d[indices_fila] # indexado fancy

array([-2,  0,  2])

In [328]:
array1d.take(indices_fila)

array([-2,  0,  2])

Pero la función `np.take` también funciona sobre listas y otros objetos:

In [329]:
np.take([-3, -2, -1,  0,  1,  2], indices_fila)

array([-2,  0,  2])

También funciona sobre los ejes de un arreglo multidimensional.

In [330]:
array2d

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34],
       [40, 41, 42, 43, 44]])

In [331]:
np.take(array2d,[1,3],axis=0)

array([[10, 11, 12, 13, 14],
       [30, 31, 32, 33, 34]])

In [332]:
np.take(array2d,[0,2],axis=1)

array([[ 0,  2],
       [10, 12],
       [20, 22],
       [30, 32],
       [40, 42]])

In [333]:
np.take(array2d, [1,4,7,9]) #Es como si hubiera aplanado el arreglo

array([ 1,  4, 12, 14])

In [335]:
array2d_aplanado = array2d.flatten()
array2d_aplanado

array([ 0,  1,  2,  3,  4, 10, 11, 12, 13, 14, 20, 21, 22, 23, 24, 30, 31,
       32, 33, 34, 40, 41, 42, 43, 44])

In [336]:
array2d_aplanado[[1,4,7,9]]

array([ 1,  4, 12, 14])

## Más propiedades de los arreglos NumPy

#### Usando funciones que generan arreglos

En el caso de arreglos más grandes no es práctico inicializar los datos manualmente, usando listas Python explícitas. En su lugar, podemos usar una de las muchas funciones en `numpy` que generan arreglos de diferentes formas. Algunas de los más comunes son:

#### np.arange

In [337]:
# Se crea un arreglo con valores en un rango
x = np.arange(0, 10, 1) # argumentos: desde, hasta (no se incluye!), paso
x

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [338]:
#np.arange?

In [339]:
x = np.arange(-1,1,0.1)
x

array([-1.00000000e+00, -9.00000000e-01, -8.00000000e-01, -7.00000000e-01,
       -6.00000000e-01, -5.00000000e-01, -4.00000000e-01, -3.00000000e-01,
       -2.00000000e-01, -1.00000000e-01, -2.22044605e-16,  1.00000000e-01,
        2.00000000e-01,  3.00000000e-01,  4.00000000e-01,  5.00000000e-01,
        6.00000000e-01,  7.00000000e-01,  8.00000000e-01,  9.00000000e-01])

#### np.linspace y np.logspace

In [343]:
# Usando np.linspace, ambos elementos de los extremos SON incluidos. Formato: (desde, hasta, número de elementos)
x = np.linspace(0, 10, 11) 
x

array([ 0.,  1.,  2.,  3.,  4.,  5.,  6.,  7.,  8.,  9., 10.])

In [344]:
# np.logspace también incluye el punto final. Por defecto base=10
x = np.logspace(0, 10, 11, base=np.e) 
#produce np.e elevado a cada valor en np.linspace(0, 10, 11), e.d. np.arra([np.e**0, np.e**1, ..., np.e**10])
x

array([1.00000000e+00, 2.71828183e+00, 7.38905610e+00, 2.00855369e+01,
       5.45981500e+01, 1.48413159e+02, 4.03428793e+02, 1.09663316e+03,
       2.98095799e+03, 8.10308393e+03, 2.20264658e+04])

#### np.mgrid

In [345]:
x, y = np.mgrid[0:5, 0:5] #similar a meshgrid en MATLAB

In [346]:
x

array([[0, 0, 0, 0, 0],
       [1, 1, 1, 1, 1],
       [2, 2, 2, 2, 2],
       [3, 3, 3, 3, 3],
       [4, 4, 4, 4, 4]])

In [347]:
y

array([[0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4],
       [0, 1, 2, 3, 4]])

In [None]:
#np.mgrid?

#### Datos aleatorios

In [None]:
#np.random?

In [None]:
# números aleatorios con distribución de probabilidad uniforme en [0,1]
x = np.random.rand(10)
x

In [None]:
# números aleatorios con distribución normal (gaussiana de media 0 y varianza 1).
x = np.random.randn(3,4)
x

In [None]:
# números aleatorios enteros pueden ser obtenido en un rango de 1 10 y cantidad de 15
x = np.random.randint(1,10, 15)
x

#### np.diag

In [None]:
# una matriz diagonal
m = np.diag([1,2,3])
m

In [None]:
#np.diag?

In [None]:
# diagonal desplazada desde la diagonal principal
m = np.diag([1, 2, 3], k=1) 
m

In [None]:
# diagonal desplazada desde la diagonal principal
m = np.diag([1, 2, 3], k=-1) 
m

#### np.zeros, np.ones y np.empty

In [348]:
#Se crea una matriz de forma (4, 5) con todos los elementos nulos 
m = np.zeros((4, 5))
m

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [349]:
#np.zeros?

In [350]:
#Se crea una matriz de forma (4, 3) con todos los elementos iguales a 1
m = np.ones((4, 3))
m

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [351]:
#np.ones?

In [352]:
#Se crea una matriz de forma (4, 5) con todos los elementos vacíos
m = np.empty((4, 5))
m

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [353]:
#np.empty?

In [354]:
%timeit m = np.zeros((4, 5))

281 ns ± 3.36 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [355]:
%timeit m = np.empty((4, 5))

294 ns ± 18.1 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [356]:
%timeit m = np.ones((4, 5))

1.52 µs ± 77.3 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Ordenar arreglos con la función `np.sort`

In [357]:
array1d = np.array([2, 1, 5, 3, 7, 4, 6, 8])
np.sort(array1d)

array([1, 2, 3, 4, 5, 6, 7, 8])

In [358]:
array2d = np.array([[1, 2],[3, 2]])
array2d

array([[1, 2],
       [3, 2]])

In [360]:
np.sort(array2d, axis=1)

array([[1, 2],
       [2, 3]])

Alternativas a sort:
* `argsort` para ordenar y obtener la lista de los indices ordenados
* `lexsort` para ordenar por elementos de un diccionario (keys)
* `searchsorted` para buscar en un arreglo ordenado
* `partition` para ordenar una parte

In [361]:
np.argsort(array1d, 0)

array([1, 0, 3, 5, 2, 6, 4, 7])

juntar con la dos arreglos de mismas dimensiones

In [None]:
a = np.array([1, 2, 3])
b = np.array([4, 5, 6])
np.concatenate((a,b))

In [None]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6]])
np.concatenate((x,y), axis=0)

Adicionalmente se recomienda revisar `np.hstack` y `np.vstack`

flipear(invertir) un arreglo

In [None]:
np.flip(array1d)

## Entrada/Salida desde/hasta archivos


### Valores separados por coma (Comma-separated values, CSV)

Un formato muy común para archivos de datos es el de valores separados por comas, o formatos relacionados, como por ejemplo TSV (tab-separated values, valores separados por tabs). Para leer datos desde tales archivos a un arreglo `NumPy` podemos usar la función `numpy.genfromtxt`. Por ejemplo, 

In [362]:
!head './datas/stockholm_td_adj.dat' # despliega las primeras líneas del archivo stockholm_td_adj.dat.
#Se puede hacer lo mismo con la terminal

1800  1  1    -6.1    -6.1    -6.1 1
1800  1  2   -15.4   -15.4   -15.4 1
1800  1  3   -15.0   -15.0   -15.0 1
1800  1  4   -19.3   -19.3   -19.3 1
1800  1  5   -16.8   -16.8   -16.8 1
1800  1  6   -11.4   -11.4   -11.4 1
1800  1  7    -7.6    -7.6    -7.6 1
1800  1  8    -7.1    -7.1    -7.1 1
1800  1  9   -10.1   -10.1   -10.1 1
1800  1 10    -9.5    -9.5    -9.5 1


In [363]:
path_data = './datas/stockholm_td_adj.dat'
path_data

'./datas/stockholm_td_adj.dat'

#### np.genfromtxt

In [364]:
data = np.genfromtxt(path_data)  # asigna los datos del archivo al arreglo data
data

array([[ 1.800e+03,  1.000e+00,  1.000e+00, ..., -6.100e+00, -6.100e+00,
         1.000e+00],
       [ 1.800e+03,  1.000e+00,  2.000e+00, ..., -1.540e+01, -1.540e+01,
         1.000e+00],
       [ 1.800e+03,  1.000e+00,  3.000e+00, ..., -1.500e+01, -1.500e+01,
         1.000e+00],
       ...,
       [ 2.011e+03,  1.200e+01,  2.900e+01, ...,  4.200e+00,  4.200e+00,
         1.000e+00],
       [ 2.011e+03,  1.200e+01,  3.000e+01, ..., -1.000e-01, -1.000e-01,
         1.000e+00],
       [ 2.011e+03,  1.200e+01,  3.100e+01, ..., -3.300e+00, -3.300e+00,
         1.000e+00]])

In [365]:
data[:,0] #año

array([1800., 1800., 1800., ..., 2011., 2011., 2011.])

In [366]:
data[:,1] #mes

array([ 1.,  1.,  1., ..., 12., 12., 12.])

In [367]:
data[:,2] #día

array([ 1.,  2.,  3., ..., 29., 30., 31.])

In [368]:
fig, ax = plt.subplots(figsize=(6,4))
ax.plot(data[:,0]+data[:,1]/12.0+data[:,2]/365, data[:,3])
#ax.plot(data[:,0]+data[:,1]/12.0+data[:,2]/365, data[:,4])
#ax.plot(data[:,0]+data[:,1]/12.0+data[:,2]/365, data[:,5])
ax.axis('tight')
ax.set_title('Temperaturas en Estocolmo')
ax.set_xlabel(u'Año')
ax.set_ylabel(u'Temperatura (°C)');

<IPython.core.display.Javascript object>

### np.savetxt

Generamos una matriz con valores aleatorios.

In [369]:
array2d = np.random.rand(4,3)
array2d

array([[0.46076098, 0.00858847, 0.79355528],
       [0.11991769, 0.09026743, 0.74690345],
       [0.01091856, 0.7014661 , 0.54462679],
       [0.93056799, 0.52684477, 0.53762567]])

In [370]:
np.savetxt("./datas/array2d_random00.txt", array2d)

In [371]:
#np.savetxt?

In [372]:
np.savetxt(fname="./datas/array2d_random01.txt", X=array2d)

In [373]:
!head "./datas/array2d_random00.txt"

4.607609797598670731e-01 8.588471584378143397e-03 7.935552844564771613e-01
1.199176868726159473e-01 9.026742802732057314e-02 7.469034539390051464e-01
1.091855644438688433e-02 7.014661031977940109e-01 5.446267917131781822e-01
9.305679858702770035e-01 5.268447708297703258e-01 5.376256691868227522e-01


In [374]:
!head "./datas/array2d_random01.txt"

4.607609797598670731e-01 8.588471584378143397e-03 7.935552844564771613e-01
1.199176868726159473e-01 9.026742802732057314e-02 7.469034539390051464e-01
1.091855644438688433e-02 7.014661031977940109e-01 5.446267917131781822e-01
9.305679858702770035e-01 5.268447708297703258e-01 5.376256691868227522e-01


#### Cabecera de archivo

In [375]:
np.savetxt("./datas/array2d_random_with_header.txt", array2d, header ='Cabecera :D')

In [None]:
!head "./datas/array2d_random_with_header.txt"

#### Pie de página de archivo

In [None]:
np.savetxt("./datas/array2d_random_with_footer.txt", array2d, footer ='Pie de página :D')

In [None]:
!head "./datas/array2d_random_with_footer.txt"

#### Delimitadores

In [376]:
np.savetxt("./datas/array2d_random_with_delimiter_comma.cvs", array2d, delimiter =',')

In [377]:
!head "./datas/array2d_random_with_delimiter_comma.cvs"

4.607609797598670731e-01,8.588471584378143397e-03,7.935552844564771613e-01
1.199176868726159473e-01,9.026742802732057314e-02,7.469034539390051464e-01
1.091855644438688433e-02,7.014661031977940109e-01,5.446267917131781822e-01
9.305679858702770035e-01,5.268447708297703258e-01,5.376256691868227522e-01


In [378]:
np.savetxt("./datas/array2d_random_with_delimiter_pointcomma.txt", array2d, delimiter =';')

In [379]:
!head "./datas/array2d_random_with_delimiter_pointcomma.txt"

4.607609797598670731e-01;8.588471584378143397e-03;7.935552844564771613e-01
1.199176868726159473e-01;9.026742802732057314e-02;7.469034539390051464e-01
1.091855644438688433e-02;7.014661031977940109e-01;5.446267917131781822e-01
9.305679858702770035e-01;5.268447708297703258e-01;5.376256691868227522e-01


#### Formateo de datos

In [380]:
np.savetxt("./datas/array2d_random_with_fmt_2.2float.txt", array2d, fmt ='%2.2f')

In [None]:
!head "./datas/array2d_random_with_fmt_2.2float.txt"

In [None]:
np.savetxt("./datas/array2d_random_with_fmt_3.5float.txt", array2d, fmt ='%3.5f')

In [None]:
!head "./datas/array2d_random_with_fmt_3.5float.txt"

In [None]:
np.savetxt("./datas/array2d_random_with_fmt_int.txt", array2d, fmt ='%d')

In [None]:
!head "./datas/array2d_random_with_fmt_int.txt"

Para mayor info sobre los formateadores de strings puede consultar [aquí](https://pyformat.info).

In [None]:
np.savetxt("./datas/array3d.txt", array3d)

### El formato de archivo nativo de Numpy

Es útil cuando se almacenan arreglos de datos y luego se leen nuevamente con numpy. Use las funciones `numpy.save` y `numpy.load`:

In [None]:
np.save("./datas/array2d_random.npy", array2d)

In [None]:
#!file "./datas/array2d_random.npy"

In [None]:
np.load("./datas/array2d_random.npy")

In [None]:
np.save("./datas/array3d.npy", array3d)

In [None]:
np.load("./datas/array3d.npy")

In [None]:
!ls -l "./datas/array2d_random"*

Para mayor info sobre la conveniencia del uso de este formato de archivos puede consultar [aquí](https://towardsdatascience.com/why-you-should-start-using-npy-file-more-often-df2a13cc0161).

## Vectorizando funciones

Como se ha mencionado en varias ocasiones, para obtener un buen rendimiento deberíamos tratar de evitar realizar bucles sobre los elementos de nuestros vectores y matrices, y en su lugar usar algoritmos vectorizados. El primer paso para convertir un algoritmo escalar a uno vectorizado es asegurarnos de que las funciones que escribamos funcionen con argumentos vectoriales.

In [381]:
def Theta(x):
    """
    Implementación escalar de la función escalón de Heavyside.
    """
    if x >= 0:
        return 1
    else:
        return 0

In [382]:
Theta(-3),Theta(0),Theta(6)

(0, 1, 1)

In [383]:
x = np.array([-3,-2,-1,0,1,2,3])

In [384]:
Theta(x)

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

Ok, eso no funcionó porque no definimos la función `Theta` de modo que pueda manejar argumentos vectoriales. Para obtener una *versión vectorizada* de Theta podemos usar la función `np.vectorize`. En muchos casos, puede vectorizar automáticamente una función:

In [385]:
Theta_vec = np.vectorize(Theta)

In [386]:
%timeit Theta_vec(x)

11.8 µs ± 499 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Podemos también implementar la función de modo que desde el comienzo acepte un argumento vectorial (esto requiere más esfuerzo, para mejorar el rendimiento):

In [387]:
def Theta2(x):
    """
    Implementación preparada para vectores de la función escalón de Heaviside.
    """
    return 1 * (x >= 0)

In [388]:
Theta2(-3),Theta2(0),Theta2(6)

(0, 1, 1)

In [389]:
%timeit Theta2(x)

1.71 µs ± 32.8 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


## Copy y "deep copy"

Para alcanzar un alto desempeño, las asignaciones en Python usualmente no copian los objetos involucrados. Esto es importante cuando se pasan objetos a funciones, para así evitar uso excesivo de memoria copiando cuando no es necesario (término técnico: paso por referencia)

In [390]:
array2d_original = np.array([[1, 2], [3, 4]])
array2d_original

array([[1, 2],
       [3, 4]])

In [391]:
# ahora array2d_original apunta al mismo arreglo que array2d_original
array2d_copiado = array2d_original 

In [392]:
id(array2d_original),id(array2d_copiado)

(4844046496, 4844046496)

In [393]:
# cambiar array2d_copiado afecta a array2d_original
array2d_copiado[0,0] = 10

In [394]:
array2d_copiado

array([[10,  2],
       [ 3,  4]])

In [395]:
array2d_original

array([[10,  2],
       [ 3,  4]])

Si queremos evitar este comportamiento, para así obtener un nuevo objecto `array2d_copiado` copiado desde `array2d_original`, pero totalmente independiente de `array2d_original`, necesitamos realizar una "copia profunda" ("deep copy") usando la función `copy`:

In [396]:
array2d_copiado2 = np.copy(array2d_original)

In [397]:
id(array2d_original),id(array2d_copiado2)

(4844046496, 4843904736)

In [398]:
# cambiar array2d_copiado2 no afecta a array2d_original
array2d_copiado2[0,0] = -5

In [399]:
array2d_copiado2

array([[-5,  2],
       [ 3,  4]])

In [400]:
array2d_original

array([[10,  2],
       [ 3,  4]])

## Usando arreglos en sentencias condicionales

Cuando se usan arreglos en sentencias condicionales, por ejemplo en sentencias `if` y otras expresiones booleanas, necesitamos usar `np.any` o bien `np.all`, que requiere que todos los elementos de un arreglo se evalúen con `True`:

In [None]:
array2d = np.array([[1,4], [9,16]])

In [None]:
if np.any(array2d > 5): # equivalente a (array2d > 5).any():
    print("Al menos un elemento del arreglo es mayor que 5")
else:
    print("Ningún elemento del arreglo es mayor que 5")

In [None]:
if np.all(array2d > 5): # equivalente a (array2d > 5).all():
    print("Todos los elementos del arreglo son mayores que 5")
else:
    print("No todos los elementos del arreglo son mayores que 5")

Versión original en inglés de [J.R. Johansson](http://jrjohansson.github.io/) (robert@riken.jp).

Traducido/Adaptado por [G.F. Rubilar](http://google.com/+GuillermoRubilar) con pequeños cambios de Esteban Vöhringer-Martinez.

La última versión de estos [Notebooks](http://ipython.org/notebook.html) está disponible en [https://github.com/PythonUdeC/CPC21](https://github.com/PythonUdeC/CPC21).

La última versión del original (en inglés) está disponible en [http://github.com/jrjohansson/scientific-python-lectures](http://github.com/jrjohansson/scientific-python-lectures).
Los otros notebooks de esta serie están listados en [http://jrjohansson.github.com](http://jrjohansson.github.com).

## Lectura adicional

* [Numpy](http://numpy.scipy.org)
* [Numpy para principiantes](https://numpy.org/doc/stable/user/absolute_beginners.html)
* https://docs.scipy.org/doc/numpy-1.15.0/user/quickstart.html
* https://numpy.org/doc/stable/user/numpy-for-matlab-users.html - Una guía de Numpy para usuario de MATLAB.