In [1]:
SANDBOX_NAME = 'fmex'
DATA_PATH = "/data/sandboxes/"+SANDBOX_NAME+"/data/"



---

# Numpy


Sinonimo de *Numerical Python*, `numpy` es una librería que proporciona herramientas para trabajar con alto rendimiento sobre arreglos multidimensionales. 


## Características
Dentro de las principales características de `numpy` se encuentran:
- Ofrece un poderoso objeto para manipular arreglos multidimensionales: `ndarray`.
- Posee herramientas para realizar operaciones matemáticas y lógicas sobre arreglos, operaciones relacionadas con algebra lineal, transformadas de Fourier, entre otras.

Para importar los módulos de la librería `numpy`, por convención se utiliza:

In [2]:
import numpy as np   # 'np' alias de numpy
import random
import math

In [9]:
the_list = [random.randint(1, 1000) for _ in range(1000000)]

In [16]:
%timeit -n 10

list_ans = [math.log(x) for x in the_list]

In [13]:
the_array = np.array(the_list)

In [17]:
%timeit -n 10

array_ans = np.log(the_array)

In [18]:
list_ans[:10]

[6.88653164253051,
 6.74993119378857,
 6.502790045915623,
 6.8885724595653635,
 6.148468295917647,
 4.976733742420574,
 6.1092475827643655,
 6.280395838960195,
 4.969813299576001,
 6.38856140554563]

In [19]:
array_ans

array([6.88653164, 6.74993119, 6.50279005, ..., 6.89770494, 3.8501476 ,
       6.48004456])



---
# Arrays


Las funcionalidades de `numpy` se basan en en el objeto `ndarray`.

Un `ndarray`, también conocido por el alias de `array`, es un arreglo N-dimensional con elementos del mismo tipo e indexado por una tupla de enteros positivos.


```python
a = numpy.array(data, dtype = None, ndmin = 0, ...)
```
- data: datos de mismo tipo en forma de matriz o una secuencia anidada.
- dtype (opcional): tipos de datos deseados en el arreglo. 
- ndmin: especifica el número mínimo de dimensiones del arreglo resultante.



## Creación de Arrays

La forma mas facil de crear un arreglo es utilizando el objeto `ndarray`.

In [20]:
a = np.array([[0,1,2,3],[3,2,1,0],[1,1,1,1]])  
a

array([[0, 1, 2, 3],
       [3, 2, 1, 0],
       [1, 1, 1, 1]])



Dentro de los principales atributos del objeto `ndarray`, se encuentran:
- `ndarray.shape`: tupla con las dimensiones del arreglo. 
- `ndarray.ndim`: numero de dimensiones del arreglo.
- `ndarray.size`: número de elementos del arreglo.
- `ndarray.dtype`: tipo de dato de los elementos del arreglo. 

In [21]:
a.shape

(3, 4)

In [22]:
a.ndim

2

In [23]:
a.size

12

In [24]:
a.dtype

dtype('int64')



Numpy cuenta con funciones especiales para crear arreglos con valores definidos por defecto, por ejemplo:
- **zeros**: crea arreglo solamente con 0's.
- **ones**: crea arreglo solamente con 1's.
- **eye**: crea una matriz identidad de tamaño n.
- **empty**: crea un arreglo sin inicializar de forma y dtype especificados.
- **full**: crea un arreglo con un valor constante especificado.

In [25]:
np.zeros((3,3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [26]:
np.ones([5,1])

array([[1.],
       [1.],
       [1.],
       [1.],
       [1.]])

In [30]:
np.eye(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [31]:
np.empty((2,3), dtype=int)

array([[979, 854, 667],
       [990,  47, 652]])

In [33]:
np.random.rand(10)

array([0.17680752, 0.01825152, 0.02486111, 0.12681139, 0.18656001,
       0.54184559, 0.27142114, 0.55868123, 0.55496169, 0.04250551])

In [34]:
np.random.randn(10)

array([ 0.55251809,  0.40828071,  0.4954722 ,  1.00316069,  0.78679057,
       -0.00792382,  0.19512893, -1.34476498, -2.58242019,  0.52263851])

In [37]:
np.random.normal(500, 10, 10)

array([511.16286497, 503.29815234, 490.88079991, 511.03096117,
       501.42946604, 513.43920742, 499.6408328 , 493.55428199,
       503.43244646, 499.73412016])

In [39]:
import string

letters = string.printable
letters

'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [46]:
''.join(np.random.choice(list(letters), 5))

'kF$l;'



## Aritmética con Arrays

El objeto `ndarray` es importante porque permite realizar cualquier operación entre arreglos sin escribir ningún bucle *for*.

Cualquier operación aritmética con arreglos del mismo tamaño aplica una operación elemento a elemento:

In [47]:
a

array([[0, 1, 2, 3],
       [3, 2, 1, 0],
       [1, 1, 1, 1]])

In [49]:
a.dot(a.T)

array([[14,  4,  6],
       [ 4, 14,  6],
       [ 6,  6,  4]])

In [50]:
a+a

array([[0, 2, 4, 6],
       [6, 4, 2, 0],
       [2, 2, 2, 2]])



Las operaciones aritméticas con escalares se aplica a cada elemento del arreglo.

In [51]:
2*a

array([[0, 2, 4, 6],
       [6, 4, 2, 0],
       [2, 2, 2, 2]])

In [52]:
1+a

array([[1, 2, 3, 4],
       [4, 3, 2, 1],
       [2, 2, 2, 2]])



Finalmente, las comparaciones entre arreglos de la misma dimensión generan un arreglo booleano.

In [53]:
b = np.ones([3,4])  
a>b

array([[False, False,  True,  True],
       [ True,  True, False, False],
       [False, False, False, False]])

In [59]:
a = np.ones([7, 3])
b = np.random.randn(3).reshape(-1, 3)

In [60]:
a

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [63]:
a + b

array([[1.2593708 , 2.58611355, 0.97961946],
       [1.2593708 , 2.58611355, 0.97961946],
       [1.2593708 , 2.58611355, 0.97961946],
       [1.2593708 , 2.58611355, 0.97961946],
       [1.2593708 , 2.58611355, 0.97961946],
       [1.2593708 , 2.58611355, 0.97961946],
       [1.2593708 , 2.58611355, 0.97961946]])

In [64]:
b

array([[ 0.2593708 ,  1.58611355, -0.02038054]])



##  Indexing y slicing en Arrays

Tecnicas muy similares de *indexing* y *slicing* para acceder a las *listas de Python* son también utilizadas en los *Arrays de Numpy*. Sin embargo, una de las principales diferencias es que los subconjuntos son vistas, es decir, cualquier cambio modifica directamente al array original.


In [82]:
a = np.arange(10)
a

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [83]:
b = np.random.rand(9)
b

array([0.03880408, 0.84718789, 0.2387833 , 0.24527754, 0.92931934,
       0.71635223, 0.45965294, 0.2877929 , 0.79754607])

In [81]:
b.shape

(9,)

In [84]:
a[3:6] =10
a

array([ 0,  1,  2, 10, 10, 10,  6,  7,  8,  9])

In [85]:
b = a[3:6]
b[:] = 5
a

array([0, 1, 2, 5, 5, 5, 6, 7, 8, 9])



Si se quiere copiar una parte de un arreglo en lugar de una vista, es necesario copiar explícitamente el arreglo.

In [86]:
b = a[3:6].copy()

In [87]:
b[:2]=1
b

array([1, 1, 5])

In [88]:
a

array([0, 1, 2, 5, 5, 5, 6, 7, 8, 9])



El principo es el mismo para arreglos multidimensionales.

In [89]:
a = np.arange(64).reshape(4,4,4)
a

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7],
        [ 8,  9, 10, 11],
        [12, 13, 14, 15]],

       [[16, 17, 18, 19],
        [20, 21, 22, 23],
        [24, 25, 26, 27],
        [28, 29, 30, 31]],

       [[32, 33, 34, 35],
        [36, 37, 38, 39],
        [40, 41, 42, 43],
        [44, 45, 46, 47]],

       [[48, 49, 50, 51],
        [52, 53, 54, 55],
        [56, 57, 58, 59],
        [60, 61, 62, 63]]])

In [94]:
a[:, 1:3, 1:3]

array([[[ 5,  6],
        [ 9, 10]],

       [[21, 22],
        [25, 26]],

       [[37, 38],
        [41, 42]],

       [[53, 54],
        [57, 58]]])

In [91]:
a[0, : ,3]

array([ 3,  7, 11, 15])

In [92]:
a[0,:2,2:]

array([[2, 3],
       [6, 7]])

In [93]:
a[::2,1,:]

array([[ 4,  5,  6,  7],
       [36, 37, 38, 39]])



## Funciones universales

Las funciones universales son funciones que ejecutan operaciones element-wise sobre los datos en los arreglos.

Generalmente, este tipo de funciones se aplican a cada elemento de un arreglo, por ejemplo:

In [6]:
a = np.logspace(-1, 1, 10)
a[:]

array([ 0.1       ,  0.16681005,  0.27825594,  0.46415888,  0.77426368,
        1.29154967,  2.15443469,  3.59381366,  5.9948425 , 10.        ])

In [7]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [8]:
b = np.sqrt(a)
b

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ])

In [9]:
np.exp(b)

array([1.        , 2.71828183, 4.11325038, 5.65223367, 7.3890561 ])

In [13]:
np.argmax(a)

4

In [17]:
b

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ])

In [18]:
np.maximum(a, b)

array([0., 1., 2., 3., 4.])



Por otro lado, hay funciones universales que realizan operaciones con 2 arrays y regresan un array como salida.

In [10]:
np.add(a,a) # a +a 

array([0, 2, 4, 6, 8])

In [11]:
np.multiply(a,a) # a * a

array([ 0,  1,  4,  9, 16])

In [12]:
np.power(a,a) # a**a

array([  1,   1,   4,  27, 256])

In [25]:
a = np.arange(100).reshape(-1, 10)
a.mean(axis=1, keepdims=True)

array([[ 4.5],
       [14.5],
       [24.5],
       [34.5],
       [44.5],
       [54.5],
       [64.5],
       [74.5],
       [84.5],
       [94.5]])

In [29]:
# generar un arreglo de 16*25 con distribucion N(100, 20) -> standar (nivel columna) -> N(0, 1)
# np.random.uniform.
# np.mean.
# np.std.
a = np.random.normal(100, 20, 16*25).reshape(16, -1)
a_mean = a.mean(axis=0, keepdims=True)
a_std = a.std(axis=0, keepdims=True)
print(f'a: {a.shape}, a_mean:{a_mean.shape}, a_std:{a_std.shape}')
a_final = (a - a_mean)/a_std
a_final

a: (16, 25), a_mean:(1, 25), a_std:(1, 25)


array([[-1.26163362, -0.703837  , -1.04373525, -2.41141314, -0.73044354,
         0.30938242, -1.31830967, -0.9368735 , -1.21571537,  0.19853749,
        -0.39366164, -1.9265462 ,  0.9770589 , -0.54467822, -1.77524883,
        -0.01451626,  0.48701968, -0.28248608,  0.01431516, -0.69040512,
        -0.30841474,  1.0457865 ,  0.43801657, -0.25848872, -0.54977161],
       [ 0.47282859,  0.73979919,  1.04079775,  0.44946696, -0.88695283,
        -0.4833468 ,  0.91059501,  1.2835693 , -0.45121079,  0.19401219,
         1.42546659,  0.20170654, -0.32799589, -0.17443258, -0.33840235,
        -0.19620503,  1.87380937, -0.42035739,  1.82240862,  0.62160993,
         0.35392521, -0.2278814 , -1.55992435,  1.59630349, -0.17968073],
       [ 0.51013411,  0.63691261,  0.6017472 ,  1.04237872, -1.78230243,
        -1.94831783, -1.31684508,  2.06526765, -0.71736439,  0.00885036,
        -0.01458071,  0.3383771 ,  1.63141662,  1.42880298, -2.03809718,
         1.36669   , -0.89772411, -0.27439612, -1

In [32]:
len(a_final.std(axis=0))

25



## Filtros en Arrays

Suponga que desea tomar el valor de una matriz `X` cuando el valor correspondiente en una condición es True, y de lo contrario tome el valor de la matriz `Y`. Dentro de *Numpy* hay una función llamada **np.where** que resuelve la situación anterior.

```python
result = np.where(cond, xarr, yarr)
```

In [33]:
xarr = np.array([1.1, 1.2, 1.3, 1.4, 1.5])
yarr = np.array([2.1, 2.2, 2.3, 2.4, 2.5])
cond = np.array([True, False, True, True, False])
np.where(cond, xarr, yarr)

array([1.1, 2.2, 1.3, 1.4, 2.5])

In [34]:
np.where(xarr>1.3, 0, 1)

array([1, 1, 1, 0, 0])



## Métodos matemáticos y estadísticos

Un conjunto de funciones matemáticas que computan estadísticas sobre una matriz completa o sobre los datos a lo largo de un eje son accesibles como métodos de la clase `ndarray`. Las funciones como suma, media y desviación estándar se pueden usar llamando al método de instancia de matriz o usando la función *numpy* de nivel superior.

In [35]:
a = np.arange(9).reshape(3,3)
a

array([[0, 1, 2],
       [3, 4, 5],
       [6, 7, 8]])

In [36]:
a.mean()

4.0

In [37]:
np.mean(a)

4.0



La operación anterior se ha realizado en toda la matriz, pero es posible especificar el eje, como se muestra a continuación:

In [38]:
a.sum(axis=1)

array([ 3, 12, 21])

In [39]:
np.sum(a,axis=0)

array([ 9, 12, 15])

In [40]:
a.max(axis=1)

array([2, 5, 8])

In [41]:
a.std(0)

array([2.44948974, 2.44948974, 2.44948974])