<img src="../files/misc/logo.gif" width=300/>
<h1 style="color:#872325"> Numpy: Arrreglos Matriciales </h1>

In [1]:
import numpy

El principal objeto de la Librería Numpy son arreglos homogéneos multidimensionales. Es decir, es una tabla de elementos, todos con el mismo tipo e indexados por un *tuple* de enteros positivos. 

La dimensiones en numpy se llaman **ejes** (axes); el número de ejes se llama el **rango** (rank).

La clase de arreglos en NumPy se conocen como **ndarray**s o, más comunmente, **arrays**. Un `numpy.array` no es un `array.array` de la librería estándard de Python (homogénea, pero unidimensional y con menor funcionalidad).

In [2]:
arr1 = numpy.array([[1,2,3], [4,5,6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

Una de las principales ventajas de usar `numpy` es el poder de usar vectorización de funciones aplicadas a un `numpy.array`. Esto implica poder aplicar una función a cada `numpy.array` sin necesidad de expresar un *for loop*, lo cuál hace trabajar con este tipo de funciónes más eficientemente.

In [3]:
%%timeit -n 10
sum([i**2 for i in range(10_000_000)])

2.97 s ± 41.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [4]:
%%timeit -n 10 # 0.0392s
(numpy.arange(10_000_000) ** 2).sum()

43.4 ms ± 3.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Propiedas Principales de `ndarray`

In [5]:
arr1.ndim

2

In [6]:
arr1.shape

(2, 3)

In [7]:
arr1.dtype

dtype('int64')

In [8]:
arr1.data

<memory at 0x104cb1ea0>

## Creación de Ndarrays
### np.array
un `ndarray` se crea mediante la función `arrray` cuyo primer parametro es la lista (o tuple) de elementos del arreglo.

Por convención, se importa la librería numpy como `np`.

In [9]:
import numpy as np

In [10]:
np.array( [1, 2] )

array([1, 2])

In [11]:
np.array( [[1, 2], [3, 4]] )

array([[1, 2],
       [3, 4]])

In [12]:
np.array( [[1, 2], [3, 4], [5, 6]] )

array([[1, 2],
       [3, 4],
       [5, 6]])

## Operaciones y Propiedades de Numpy Arrays

In [13]:
a1 = np.array([
     [2, 4, 6],
     [3, 5, 1]
])

In [14]:
a1 + 1

array([[3, 5, 7],
       [4, 6, 2]])

In [15]:
# Elevar al cuadrado cada entrada
a1 ** 2

array([[ 4, 16, 36],
       [ 9, 25,  1]])

In [16]:
# Multiplicación entrada a entrada
a1 * a1

array([[ 4, 16, 36],
       [ 9, 25,  1]])

In [17]:
a1 += 1
a1

array([[3, 5, 7],
       [4, 6, 2]])

In [18]:
# Comparación entrada a entrada
a1 <= 3

array([[ True, False, False],
       [False, False,  True]])

### np.arange, np.linspace
Podemos crear rangos de números $[a, b)$ usando la funcion `arange` (análogo a `range` en Python)

In [19]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [20]:
np.arange(2, 11, 2)

array([ 2,  4,  6,  8, 10])

In [21]:
# A diferencia de range, np.arange nos permite tomar pasos fraccionarios
np.arange(1, 11, 0.5)

array([ 1. ,  1.5,  2. ,  2.5,  3. ,  3.5,  4. ,  4.5,  5. ,  5.5,  6. ,
        6.5,  7. ,  7.5,  8. ,  8.5,  9. ,  9.5, 10. , 10.5])

In [22]:
[i / (10) for i in range(0, 11)]

[0.0, 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1.0]

Usamos la función `linspace` cuando deseamos un arreglo de $n$ elementos entre $a$ y $b$ (inclusivo); $a < b$

In [23]:
a, b = 2, 10
np.linspace(a, b, 20)

array([ 2.        ,  2.42105263,  2.84210526,  3.26315789,  3.68421053,
        4.10526316,  4.52631579,  4.94736842,  5.36842105,  5.78947368,
        6.21052632,  6.63157895,  7.05263158,  7.47368421,  7.89473684,
        8.31578947,  8.73684211,  9.15789474,  9.57894737, 10.        ])

<h2 style="color:crimson">Ejercicio</h2>

Crea un numpy array con 100 elementos $\{x_i\}_{i=0}^{99}$ donde
$$
    x_i = i (i + 100) \ \forall \ i \in \{0, \ldots, 99\}
$$

e.g., $x_{99} = 19701$; $x_{10} = 1100$ 

## Índices

In [24]:
arr = np.arange(25).reshape(5, 5); arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [25]:
# Seleccion de la primera fila
arr[0, :]

array([0, 1, 2, 3, 4])

In [26]:
# Seleccion de la primera columna
arr[:, 0]

array([ 0,  5, 10, 15, 20])

In [27]:
fila, columna = 1, 2
arr[fila, columna]

7

In [28]:
# (-2, 0), (-1, 3)
filas, columnas = [-2, -1], [0, 3]
arr[filas, columnas]

array([15, 23])

Podemos seleccionar múltiples filas usando *masks*.

In [29]:
arr[[0, -1]] # equiv. arr[[0, -1], :]

array([[ 0,  1,  2,  3,  4],
       [20, 21, 22, 23, 24]])

In [30]:
# Podemos asignar un valor a
# ciertas dimensiones
arr[[0, -1]] = 0
arr

array([[ 0,  0,  0,  0,  0],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [ 0,  0,  0,  0,  0]])

In [31]:
# podemos asignar varios valores de la misma
# dimension a la que se le hizo la selección
arr[[0, -1]] = np.random.randint(-100, -1, size=(2, 5))
arr

array([[-75,  -8, -38, -57, -17],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14],
       [ 15,  16,  17,  18,  19],
       [-77, -45, -94, -44, -23]])

In [32]:
# Al igual que una lista en Python, podemos
# revertir el orden de un numpy array con índices
arr[1][::-1]

array([9, 8, 7, 6, 5])

## Broadcasting
**Broadcasting** (difusión) es la manera en que numpy manipula *arrays* con diferentes dimensiones durante operaciones aritméticas.
Para $A$, $B$, dos dimensiones son compatibles cuando

1. Son iguales;
2. Una dimensión es igual a 1.

In [33]:
A = np.arange(25).reshape(5, 5)
B = np.arange(5).reshape(1, 5)

print(A)
print(B)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
[[0 1 2 3 4]]


In [34]:
A * B

array([[ 0,  1,  4,  9, 16],
       [ 0,  6, 14, 24, 36],
       [ 0, 11, 24, 39, 56],
       [ 0, 16, 34, 54, 76],
       [ 0, 21, 44, 69, 96]])

In [35]:
A + B

array([[ 0,  2,  4,  6,  8],
       [ 5,  7,  9, 11, 13],
       [10, 12, 14, 16, 18],
       [15, 17, 19, 21, 23],
       [20, 22, 24, 26, 28]])

### np.zeros

In [36]:
np.zeros(shape=10)

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [37]:
np.zeros(shape=(5,5))

array([[0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

In [38]:
np.zeros(shape=(2, 5, 5))

array([[[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]],

       [[0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.],
        [0., 0., 0., 0., 0.]]])

### np.ones

In [39]:
np.ones(shape=10)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1.])

In [40]:
np.ones(shape=(5,5))

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

### np.triu, np.tril

In [41]:
np.triu([1,2,4])

array([[1, 2, 4],
       [0, 2, 4],
       [0, 0, 4]])

In [42]:
np.tril([1,2,4])

array([[1, 0, 0],
       [1, 2, 0],
       [1, 2, 4]])

### np.identity

In [43]:
# np.eye(5) regresa el mismo resultado
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

<h2 style="color:crimson">Ejercicio</h2>
Crea un numpy array en $\mathbb{R}^{10\times 10}$ tal que

$$
x_{i,j} = 
\begin{cases}
    2i & \forall \ i = j \\
    0 & \forall \ i \neq j
\end{cases}
$$

Considera $i, j \in \{1, \ldots, 10\}$

### Dimensiones de numpy arrays
Los `ndarray`s son $n$ dimensionales, lo que significa que podemos crear una arreglo $n$-dimensional siguiendo la misma lógica.

In [44]:
# Dim: 1
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [45]:
# Dim: 2. Arreglamos una matriz con 4 filas y 3 columnas
np.arange(12).reshape(4, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [46]:
# Dim: 3. Arreglamos dos matrices, cada una con 2 filas y 3 columnas
# (Tensor de segundo orden)
np.arange(12).reshape(2, 2, 3)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

### Métodos de un Numpy Array

In [47]:
a2 = np.arange(1, 11)

In [48]:
a2.min()

1

In [49]:
a2.max()

10

In [50]:
a2.argmax()

9

In [51]:
a2.sum()

55

In [52]:
a2.cumsum()

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45, 55])

In [53]:
from numpy.random import seed, randint
seed(42)

a3 = randint(5, 10, size=(5,10))
a3

array([[8, 9, 7, 9, 9, 6, 7, 7, 7, 9],
       [8, 7, 9, 6, 8, 6, 8, 9, 5, 8],
       [6, 9, 8, 5, 5, 7, 7, 6, 8, 8],
       [7, 8, 8, 5, 7, 9, 7, 9, 5, 6],
       [8, 5, 8, 6, 6, 5, 6, 9, 6, 8]])

In [54]:
a3.mean()

7.18

In [55]:
a3.mean(axis=0)

array([7.4, 7.6, 8. , 6.2, 7. , 6.6, 7. , 8. , 6.2, 7.8])

In [56]:
a3.mean(axis=1)

array([7.8, 7.4, 6.9, 7.1, 6.7])

## Funciones en Numpy

In [57]:
np.unique(a3, return_counts=True)

(array([5, 6, 7, 8, 9]), array([ 7, 10, 10, 13, 10]))

In [58]:
# Podemos encontrar los índices dentro de un 
# numpy array usando np.where
a4 = np.array([-1, 0,  1, -2, 1, 0, -4])
np.where(a4 > 0)

(array([2, 4]),)

In [59]:
a5 = np.array([
    [-1, 0,   1, -2,  1,  0, -4],
    [1,  1,  -1,  2,  2, -3,  4],
])
np.where(a5 > 0)

(array([0, 0, 1, 1, 1, 1, 1]), array([2, 4, 0, 1, 3, 4, 6]))

Numpy nos permite aplicar una función a un eje en particular usando la función `np.apply_along_axis(func1d, axis, arr, *args, **kwargs)`; donde `func1d` es una función. $f:\mathbb{R}^n \to \mathbb{R}^m$, `axis` es el eje a ejecutar: *0* para cada fila de una columna dada y *1* para cada columna de una fila y; `arr` es el numpy array a manipular.

**Ejemplo: Ordenando cada fila de una columna**.

In [60]:
from numpy.random import randint, seed
seed(1643)
a3 = randint(0, 10, size=(4,4))
a3

array([[5, 9, 6, 2],
       [2, 6, 2, 7],
       [2, 7, 4, 2],
       [8, 1, 9, 7]])

In [61]:
np.apply_along_axis(sorted, 0, a3)

array([[2, 1, 2, 2],
       [2, 6, 4, 2],
       [5, 7, 6, 7],
       [8, 9, 9, 7]])

In [62]:
# Ordenando cada columna de una fila
np.apply_along_axis(sorted, 1, a3)

array([[2, 5, 6, 9],
       [2, 2, 6, 7],
       [2, 2, 4, 7],
       [1, 7, 8, 9]])

**Nota**

Al usar la función `np.apply_along_axis`, numpy aplica implicitamente un for loop en python sobre el eje que decidamos. Usar `np.apply_along_axis` **no** es la manera más eficiente de realizar este tipo de operaciones. Siempre que exista una operación equivalente de python en numpy, es recomendable usar la función dentro de numpy.

Por ejemplo, el equivalente de `sorted` en python es `np.sort` en numpy

In [63]:
a3 = randint(0, 10, size=(10_000, 10_000))

In [64]:
%%timeit -n 5
np.apply_along_axis(sorted, 0, a3);

31.4 s ± 281 ms per loop (mean ± std. dev. of 7 runs, 5 loops each)


In [65]:
%%timeit -n 5
# Ordenando cada fila de una columna
np.sort(a3, 0);

3.67 s ± 15.7 ms per loop (mean ± std. dev. of 7 runs, 5 loops each)


### Ejemplo: Series tiempo AAPL

In [66]:
aapl = np.loadtxt("../files/lec08/AAPL.txt")

In [67]:
def media_movil(arr, n=10):
    mmarr = arr.cumsum()
    mmarr[n:] = mmarr[n:] - mmarr[:-n]
    return mmarr / n

In [68]:
media_movil(aapl)

array([ 11.763,  23.518,  35.265,  46.977,  58.683,  70.343,  82.108,
        93.933, 105.492, 116.94 , 116.549, 116.148, 115.55 , 114.997,
       114.274, 113.498, 112.774, 112.055, 111.584, 110.915, 110.386,
       109.603, 109.165, 109.005, 109.017, 109.139, 109.271, 109.345,
       109.38 , 109.78 , 110.094, 110.669, 111.01 , 110.96 , 110.955,
       110.86 , 110.682, 110.605, 110.694, 110.91 , 111.083, 111.456,
       111.923, 112.556, 113.163, 113.916, 114.616, 115.219, 115.636,
       115.893, 116.289, 116.446, 116.6  , 116.6  , 116.618, 116.556,
       116.522, 116.607, 116.877, 117.136, 117.385, 117.634, 117.865,
       118.283, 118.667, 119.043, 119.382, 119.599, 119.697, 119.974,
       120.193, 120.463, 120.722, 120.857, 121.733, 122.608, 123.516,
       124.537, 125.693, 126.709, 127.757, 128.774, 129.94 , 131.307,
       131.983, 132.664, 133.328, 133.969, 134.527, 134.976, 135.4  ,
       135.881, 136.251, 136.728, 137.073, 137.517, 137.879, 138.161,
       138.35 , 138.

In [69]:
np.where(np.diff(aapl) > 0)[0]

array([  5,   6,  12,  15,  16,  19,  21,  22,  24,  25,  26,  28,  33,
        35,  36,  37,  38,  40,  42,  43,  44,  45,  46,  48,  49,  53,
        55,  56,  57,  58,  59,  62,  65,  66,  68,  69,  70,  73,  75,
        76,  77,  78,  79,  81,  82,  83,  85,  86,  87,  89,  90,  91,
        92,  94,  96,  99, 100, 102, 103, 105, 107, 110, 111, 112, 115,
       116, 122, 124, 127, 129, 130, 132, 134, 135, 138, 139, 140, 142,
       143, 147, 148, 149, 152, 154, 156, 157, 159, 160, 164, 168, 170,
       172, 175, 177, 179, 181, 182, 183, 184, 185, 186, 187, 188, 189,
       192, 193, 194, 198, 199, 201, 202, 203, 204, 206, 207, 208, 213,
       214, 216, 217, 218, 219, 220, 221, 226, 230, 232, 237, 238, 240,
       242, 244, 246, 247, 248])

In [70]:
for num, val in zip(*np.histogram(np.diff(aapl), bins="auto")):
    print(round(val), "*" * num)

-6.0 **
-6.0 *
-5.0 
-5.0 
-4.0 
-4.0 *
-3.0 **
-3.0 ******
-3.0 *
-2.0 *****
-2.0 **********
-1.0 **************
-1.0 ******************************
-0.0 ********************************************
0.0 *************************************
0.0 ***********************************
1.0 **********************
1.0 **************
2.0 *********
2.0 *******
3.0 *****
3.0 
4.0 
4.0 **
4.0 
5.0 
5.0 
6.0 
6.0 
7.0 
7.0 **


## Álgebra Lineal en Numpy

Trabajar con un arreglo de dos ejes en Numpy es escencialmente trabajar con una matriz. Numpy ofrece facilidad al querer trabajar con matrices.

In [71]:
# Creando una matriz 2 X 3
A = np.array([
    [1, 2, 3],
    [9, 3, 2]
])

A

array([[1, 2, 3],
       [9, 3, 2]])

In [72]:
# Transponer la Matriz A
A.T

array([[1, 9],
       [2, 3],
       [3, 2]])

In [73]:
# Creando una matriz B
B = np.array([
    [1, 1, 1],
    [3, 2, 1],
    [2, 3, 1]
])

B @ B

array([[ 6,  6,  3],
       [11, 10,  6],
       [13, 11,  6]])

<h2 style="color:crimson">Ejercicio</h2>
Verifica que la matriz $C$ sea ortogonal, i.e., $C C^T = I$

$$
    C = \frac{1}{3}\begin{bmatrix}
        2 & -2 &  1 \\
        1 &  2 &  2 \\
        2 &  1 & -2
        \end{bmatrix}
$$

### numpy.linalg

Para operaciones más complejas con matrices, la sub-librería [`numpy.linalg`](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.linalg.html) contiene funciones optimizadas para poder trabajar con matrices

In [74]:
from numpy import linalg

In [75]:
D = np.array([2, 1, 2, 4]).reshape(2, 2)
D

array([[2, 1],
       [2, 4]])

In [76]:
linalg.inv(D)

array([[ 0.66666667, -0.16666667],
       [-0.33333333,  0.33333333]])

In [77]:
linalg.eig(D)

(array([1.26794919, 4.73205081]), array([[-0.80689822, -0.34372377],
        [ 0.59069049, -0.9390708 ]]))

In [78]:
linalg.inv(D) @ D

array([[1., 0.],
       [0., 1.]])