<h1 style="color:teal">Numpy</h1>
 
![Numpy Logo](https://cms-assets.tutsplus.com/uploads/users/34/posts/28703/preview_image/numpy.jpg)

In [1]:
import numpy

El principal objeto de la Librería Numpy son arreglos homogéneos multidimensionales. Es decir, es una tabla de elementos, todos con el mismo tipo e indexados por un *tuple* de enteros positivos. 

La dimensiones en numpy se llaman **ejes** (axes); el número de ejes se llama el **rango** (rank).

La clase de arreglos en NumPy se conocen como **ndarray**s o, más comunmente, **arrays**. Un `numpy.array` no es un `array.array` de la librería estándard de Python (homogénea, pero unidimensional y con menor funcionalidad).

In [8]:
arr1 = numpy.array([[1,2,3],
                    [4,5,6]])
arr1

array([[1, 2, 3],
       [4, 5, 6]])

Una de las principales ventajas de usar `numpy` es el poder de usar vectorización de funciones aplicadas a un `numpy.array`. Esto implica poder aplicar una función a cada `numpy.array` sin necesidad de expresar un *for loop*, lo cuál hace trabajar con este tipo de funciónes más eficientemente.

In [3]:
%%timeit -n 10
[i**2 for i in range(10_000_000)]

3 s ± 54.7 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [4]:
%%timeit -n 10 # 0.0392s
numpy.arange(10000000) ** 2

40 ms ± 2.38 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


### Propiedas Principales de `ndarray`

In [12]:
arr1.ndim

2

In [13]:
arr1.shape

(2, 3)

In [14]:
arr1.dtype

dtype('int64')

In [15]:
arr1.data

<memory at 0x10b7268b8>

## Creación de Ndarrays
### np.array
un `ndarray` se crea mediante la función `arrray` cuyo primer parametro es la lista (o tuple) de elementos del arreglo.

Por convención, se importa la librería numpy como `np`.

In [16]:
import numpy as np

In [17]:
np.array( [1, 2] )

array([1, 2])

In [20]:
np.array( [[1, 2], [3, 4]] )

(2, 2)

In [23]:
np.array( [[1, 2], [3, 4], [5, 6]] )

array([[[1, 2],
        [3, 4],
        [5, 6]],

       [[1, 2],
        [3, 4],
        [5, 6]]])

## Operaciones y Propiedades de Numpy Arrays

In [24]:
a1 = np.array([
     [2, 4, 6],
     [3, 5, 1]
])

In [25]:
a1 + 1

array([[3, 5, 7],
       [4, 6, 2]])

In [26]:
# Elevar al cuadrado cada entrada
a1 ** 2

array([[ 4, 16, 36],
       [ 9, 25,  1]])

In [99]:
# Multiplicación entrada a entrada
a1 * a1

array([[ 9, 25, 49],
       [16, 36,  4]])

In [14]:
a1 += 1
a1

array([[3, 5, 7],
       [4, 6, 2]])

In [15]:
# Comparación entrada a entrada
a1 <= 3

array([[ True, False, False],
       [False, False,  True]], dtype=bool)

### np.arange, np.linspace
Podemos crear rangos de números $[a, b)$ usando la funcion `arange` (análogo a `range` en Python)

In [18]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [19]:
np.arange(2, 11, 2)

array([ 2,  4,  6,  8, 10])

In [20]:
# A diferencia de range, np.arange nos permite tomar pasos fraccionarios
np.arange(1, 11, 0.5)

array([  1. ,   1.5,   2. ,   2.5,   3. ,   3.5,   4. ,   4.5,   5. ,
         5.5,   6. ,   6.5,   7. ,   7.5,   8. ,   8.5,   9. ,   9.5,
        10. ,  10.5])

Usamos la función `linspace` cuando deseamos un arreglo de $n$ elementos entre $a$ y $b$ (inclusivo); $a < b$

In [40]:
a, b = 2, 10
np.linspace(a, b, 50)

array([  2.        ,   2.16326531,   2.32653061,   2.48979592,
         2.65306122,   2.81632653,   2.97959184,   3.14285714,
         3.30612245,   3.46938776,   3.63265306,   3.79591837,
         3.95918367,   4.12244898,   4.28571429,   4.44897959,
         4.6122449 ,   4.7755102 ,   4.93877551,   5.10204082,
         5.26530612,   5.42857143,   5.59183673,   5.75510204,
         5.91836735,   6.08163265,   6.24489796,   6.40816327,
         6.57142857,   6.73469388,   6.89795918,   7.06122449,
         7.2244898 ,   7.3877551 ,   7.55102041,   7.71428571,
         7.87755102,   8.04081633,   8.20408163,   8.36734694,
         8.53061224,   8.69387755,   8.85714286,   9.02040816,
         9.18367347,   9.34693878,   9.51020408,   9.67346939,
         9.83673469,  10.        ])

<h2 style="color:crimson">Ejercicio</h2>

Crea un numpy array con 100 elementos $\{x_i\}_{i=0}^{99}$ donde
$$
    x_i = i (i + 100) \ \forall \ i \in \{0, \ldots, 99\}
$$

e.g., $x_{99} = 19701$; $x_{10} = 1100$ 

## Índices

In [59]:
arr = np.arange(25).reshape(5, 5)
arr

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [56]:
# Seleccion de la primera fila
arr[0]

array([0, 1, 2, 3, 4])

In [66]:
# Seleccion de la primera columna
arr[:, 0]

array([ 0,  5, 10, 15, 20])

In [25]:
fila, columna = 1, 2
arr[fila, columna]

7

In [104]:
filas, columnas = [-2, -1], [0, 3]
arr[filas, columnas]

array([ 15, -20])

Podemos seleccionar múltiples filas usando *masks*.

In [27]:
# Seleccionando la primera y última fila
arr[[0, -1], [1,2]]

array([ 1, 22])

In [28]:
# Podemos asignar un valor a
# ciertas dimensiones
arr[[0, -1]] = 0
arr

array([[ 0,  0,  0,  0,  0],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [ 0,  0,  0,  0,  0]])

In [103]:
# podemos asignar varios valores de la misma
# dimension a la que se le hizo la selección
arr[[0, -1]] = np.random.randint(-100, -1, size=(2, 5))
arr

array([[ -3, -32, -58, -61, -83],
       [  5,   6,   7,   8,   9],
       [ 10,  11,  12,  13,  14],
       [ 15,  16,  17,  18,  19],
       [-78, -91, -14, -20, -64]])

In [30]:
# Al igual que una lista en Python, podemos
# revertir el orden de un numpy array con índices
arr[1][::-1]

array([9, 8, 7, 6, 5])

## Broadcasting
**Broadcasting** (difusión) es la manera en que numpy manipula *arrays* con diferentes dimensiones durante operaciones aritméticas.
Para $A$, $B$, dos dimensiones son compatibles cuando

1. Son iguales;
2. Una dimensión es igual a 1.

In [114]:
A = np.arange(25).reshape(5, 5)
B = np.arange(5).reshape(1, 5)

print(A)
print(B)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]
 [15 16 17 18 19]
 [20 21 22 23 24]]
[[0 1 2 3 4]]


In [115]:
A * B

array([[ 0,  1,  4,  9, 16],
       [ 0,  6, 14, 24, 36],
       [ 0, 11, 24, 39, 56],
       [ 0, 16, 34, 54, 76],
       [ 0, 21, 44, 69, 96]])

In [116]:
A + B

array([[ 0,  2,  4,  6,  8],
       [ 5,  7,  9, 11, 13],
       [10, 12, 14, 16, 18],
       [15, 17, 19, 21, 23],
       [20, 22, 24, 26, 28]])

### np.zeros

In [118]:
np.zeros(shape=10)

array([ 0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.,  0.])

In [119]:
np.zeros(shape=(5,5))

array([[ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.]])

In [134]:
a = np.zeros(shape=(2, 5, 5))
a

array([[[ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.]],

       [[ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.],
        [ 0.,  0.,  0.,  0.,  0.]]])

### np.ones

In [135]:
np.ones(shape=10)

array([ 1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.,  1.])

In [349]:
np.ones(shape=(5,5))

array([[ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.,  1.]])

### np.triu, np.tril

In [139]:
np.triu([1,2,4, 5, 7, 1])

array([[1, 2, 4, 5, 7, 1],
       [0, 2, 4, 5, 7, 1],
       [0, 0, 4, 5, 7, 1],
       [0, 0, 0, 5, 7, 1],
       [0, 0, 0, 0, 7, 1],
       [0, 0, 0, 0, 0, 1]])

In [137]:
np.tril([1,2,4, 5, 7, 1])

array([[1, 0, 0, 0, 0, 0],
       [1, 2, 0, 0, 0, 0],
       [1, 2, 4, 0, 0, 0],
       [1, 2, 4, 5, 0, 0],
       [1, 2, 4, 5, 7, 0],
       [1, 2, 4, 5, 7, 1]])

### np.identity

In [28]:
# np.eye(5) regresa el mismo resultado
np.identity(5)

array([[ 1.,  0.,  0.,  0.,  0.],
       [ 0.,  1.,  0.,  0.,  0.],
       [ 0.,  0.,  1.,  0.,  0.],
       [ 0.,  0.,  0.,  1.,  0.],
       [ 0.,  0.,  0.,  0.,  1.]])

<h2 style="color:crimson">Ejercicio</h2>
Crea un numpy array en $\mathbb{R}^{10\times 10}$ tal que

$$
x_{i,j} = 
\begin{cases}
    2i & \forall \ i = j \\
    0 & \forall \ i \neq j
\end{cases}
$$

Considera $i, j \in \{1, \ldots, 10\}$

### Dimensiones de numpy arrays
Los `ndarray`s son $n$ dimensionales, lo que significa que podemos crear una arreglo $n$-dimensional siguiendo la misma lógica.

In [152]:
# Dim: 1
np.arange(12)

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [153]:
# Dim: 2. Arreglamos una matriz con 4 filas y 3 columnas
np.arange(12).reshape(4, 3)

array([[ 0,  1,  2],
       [ 3,  4,  5],
       [ 6,  7,  8],
       [ 9, 10, 11]])

In [154]:
# Dim: 3. Arreglamos dos matrices, cada una con 2 filas y 3 columnas
# (Tensor de segundo orden)
np.arange(12).reshape(2, 2, 3)

array([[[ 0,  1,  2],
        [ 3,  4,  5]],

       [[ 6,  7,  8],
        [ 9, 10, 11]]])

### Métodos de un Numpy Array

In [159]:
a2 = np.arange(1, 11)

In [156]:
a2.min()

1

In [160]:
a2.max()

10

In [161]:
a2.argmax()

9

In [85]:
a2.sum()

55

In [86]:
a2.cumsum()

array([ 1,  3,  6, 10, 15, 21, 28, 36, 45, 55])

In [120]:
a2.reshape(5, 2)

array([[ 1,  2],
       [ 3,  4],
       [ 5,  6],
       [ 7,  8],
       [ 9, 10]])

In [178]:
from numpy.random import seed, randint
seed(42)

a3 = randint(5, 10, size=(5,10))
a3

array([[8, 9, 7, 9, 9, 6, 7, 7, 7, 9],
       [8, 7, 9, 6, 8, 6, 8, 9, 5, 8],
       [6, 9, 8, 5, 5, 7, 7, 6, 8, 8],
       [7, 8, 8, 5, 7, 9, 7, 9, 5, 6],
       [8, 5, 8, 6, 6, 5, 6, 9, 6, 8]])

In [179]:
a3.mean()

7.1799999999999997

In [167]:
a3.mean(axis=0)

array([ 7.4,  7.6,  8. ,  6.2,  7. ,  6.6,  7. ,  8. ,  6.2,  7.8])

In [168]:
a3.mean(axis=1)

array([ 7.8,  7.4,  6.9,  7.1,  6.7])

## Funciones en Numpy

In [185]:
np.unique(a3, return_counts=True)

(array([5, 6, 7, 8, 9]), array([ 7, 10, 10, 13, 10]))

In [93]:
# Podemos encontrar los *índices* dentro de un 
# numpy array usando np.where
a4 = np.array([-1, 0,  1, -2, 1, 0, -4])
np.where(a4 > 0)

(array([2, 4]),)

In [187]:
a5 = np.array([
    [-1, 0,   1, -2,  1,  0, -4],
    [1,  1,  -1,  2,  2, -3,  4],
])
np.where(a5 > 0)

(array([0, 0, 1, 1, 1, 1, 1]), array([2, 4, 0, 1, 3, 4, 6]))

Numpy nos permite aplicar una función a un eje en particular usando la función `np.apply_along_axis(func1d, axis, arr, *args, **kwargs)`; donde `func1d` es una función. $f:\mathbb{R}^n \to \mathbb{R}^m$, `axis` es el eje a ejecutar: *0* para cada fila de una columna dada y *1* para cada columna de una fila y; `arr` es el numpy array a manipular.

**Ejemplo: Ordenando cada fila de una columna**.

In [189]:
from numpy.random import randint, seed
seed(1643)
a3 = randint(0, 10, size=(4,4))
a3

array([[5, 9, 6, 2],
       [2, 6, 2, 7],
       [2, 7, 4, 2],
       [8, 1, 9, 7]])

In [190]:
np.apply_along_axis(sorted, 0, a3)

array([[2, 1, 2, 2],
       [2, 6, 4, 2],
       [5, 7, 6, 7],
       [8, 9, 9, 7]])

In [191]:
# Ordenando cada columna de una fila
np.apply_along_axis(sorted, 1, a3)

array([[2, 5, 6, 9],
       [2, 2, 6, 7],
       [2, 2, 4, 7],
       [1, 7, 8, 9]])

In [82]:
np.apply_along_axis(lambda x: (x[0] - x[-1]) ** 2, 0,  a3)

array([ 9, 64,  9, 25])

**Nota**

Al usar la función `np.apply_along_axis`, numpy aplica implicitamente un for loop en python sobre el eje que decidamos. Usar `np.apply_along_axis` **no** es la manera más eficiente de realizar este tipo de operaciones. Siempre que exista una operación equivalente de python en numpy, es recomendable usar la función dentro de numpy.

Por ejemplo, el equivalente de `sorted` en python es `np.sort` en numpy

In [47]:
a3 = randint(0, 10, size=(10_000, 10_000))

In [53]:
%%timeit -n 5
np.apply_along_axis(sorted, 0, a3);

37.6 s ± 2.81 s per loop (mean ± std. dev. of 7 runs, 5 loops each)


In [52]:
%%timeit -n 5
# Ordenando cada fila de una columna
np.sort(a3, 0);

4.24 s ± 53.4 ms per loop (mean ± std. dev. of 7 runs, 5 loops each)


### Ejemplo: Series tiempo AAPL

In [201]:
aapl = np.loadtxt("./files/lec06/AAPL.txt")

In [1]:
def media_movil(arr, n=2):
    mmarr = arr.cumsum()
    mmarr[n:] = mmarr[n:] - mmarr[:-n]
    return mmarr[n:]

In [231]:
np.where(np.diff(aapl) > 0)[0]

array([  5,   6,  12,  15,  16,  19,  21,  22,  24,  25,  26,  28,  33,
        35,  36,  37,  38,  40,  42,  43,  44,  45,  46,  48,  49,  53,
        55,  56,  57,  58,  59,  62,  65,  66,  68,  69,  70,  73,  75,
        76,  77,  78,  79,  81,  82,  83,  85,  86,  87,  89,  90,  91,
        92,  94,  96,  99, 100, 102, 103, 105, 107, 110, 111, 112, 115,
       116, 122, 124, 127, 129, 130, 132, 134, 135, 138, 139, 140, 142,
       143, 147, 148, 149, 152, 154, 156, 157, 159, 160, 164, 168, 170,
       172, 175, 177, 179, 181, 182, 183, 184, 185, 186, 187, 188, 189,
       192, 193, 194, 198, 199, 201, 202, 203, 204, 206, 207, 208, 213,
       214, 216, 217, 218, 219, 220, 221, 226, 230, 232, 237, 238, 240,
       242, 244, 246, 247, 248])

In [287]:
def horizontal_histogram(values, bins="auto"):
    for num, val in zip(*np.histogram(values, bins=bins)):
        print(f"{round(val, 2):>5} {'*' * num}")

In [288]:
horizontal_histogram(np.diff(aapl))

-6.01 **
-5.58 *
-5.14 
-4.71 
-4.28 
-3.85 *
-3.41 **
-2.98 ******
-2.55 *
-2.12 *****
-1.68 **********
-1.25 **************
-0.82 ******************************
-0.39 ********************************************
 0.05 *************************************
 0.48 ***********************************
 0.91 **********************
 1.34 **************
 1.78 *********
 2.21 *******
 2.64 *****
 3.07 
 3.51 
 3.94 **
 4.37 
  4.8 
 5.24 
 5.67 
  6.1 
 6.53 
 6.97 **


## Álgebra Lineal en Numpy

Trabajar con un arreglo de dos ejes en Numpy es escencialmente trabajar con una matriz. Numpy ofrece facilidad al querer trabajar con matrices.

In [240]:
# Creando una matriz 2 X 3
A = np.array([
    [1, 2, 3],
    [9, 3, 2]
])

A

array([[1, 2, 3],
       [9, 3, 2]])

In [241]:
# Transponer la Matriz A
A.T

array([[1, 9],
       [2, 3],
       [3, 2]])

In [243]:
# Creando una matriz B
B = np.array([
    [1, 1, 1],
    [3, 2, 1],
    [2, 3, 1]
])

B @ B

array([[ 6,  6,  3],
       [11, 10,  6],
       [13, 11,  6]])

<h2 style="color:crimson">Ejercicio</h2>
Verifica que la matriz $C$ sea ortogonal, i.e., $C C^T = I$

$$
    C = \frac{1}{3}\begin{bmatrix}
        2 & -2 &  1 \\
        1 &  2 &  2 \\
        2 &  1 & -2
        \end{bmatrix}
$$

In [262]:
c =np.array([
    [2, -2, 1],
    [1, 2, 2],
    [2, 1, -2]
]) / 3
c @ c.T

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.]])

## numpy.linalg

Para operaciones más complejas con matrices, la sub-librería [`numpy.linalg`](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.linalg.html) contiene funciones optimizadas para poder trabajar con matrices

In [267]:
from numpy import linalg

In [264]:
D = np.array([2, 1, 2, 4]).reshape(2, 2)
D

array([[2, 1],
       [2, 4]])

In [265]:
linalg.inv(D)

array([[ 0.66666667, -0.16666667],
       [-0.33333333,  0.33333333]])

In [266]:
linalg.eig(D)

(array([ 1.26794919,  4.73205081]), array([[-0.80689822, -0.34372377],
        [ 0.59069049, -0.9390708 ]]))

In [31]:
linalg.inv(D) @ D

array([[ 1.,  0.],
       [ 0.,  1.]])

## numpy.random
[Numpy.random](https://docs.scipy.org/doc/numpy/reference/routines.random.html) es una colección de funciones dedicadas a crear numpy arrays n-dimensionales bajo alguna distribución.

In [270]:
from numpy import random

In [271]:
# Muestra de valores con distribución normal estándar
random.randn(3, 3)

array([[ 1.89732293, -1.0666441 , -0.33259046],
       [ 0.73934788,  0.73257818,  0.54102279],
       [-1.27795147, -0.22075577, -0.15934652]])

In [272]:
# Muestra de valores con distribución uniforme
random.rand(3,3)

array([[ 0.05696013,  0.41778831,  0.78126811],
       [ 0.66283441,  0.9850046 ,  0.68890742],
       [ 0.53885196,  0.75615191,  0.57585611]])

In [283]:
# Revolver un arreglo ordenado
an_array = np.array([1, 2, 3, 5])
random.shuffle(an_array)
an_array

array([1, 3, 2, 5])

In [284]:
# Selecciona valores al azar dentro de un numpy array
an_array = np.array([1, 2, 3, 5])
random.choice(an_array, size=10)

array([3, 2, 3, 1, 2, 2, 2, 3, 1, 1])

In [289]:
# Por default, la probabilidad de cada elemento es uniforme
sample1 = random.choice(an_array, size=100)
horizontal_histogram(sample1, bins=len(an_array))

  1.0 ************************
  2.0 ***************************
  3.0 *************************
  4.0 ************************


In [291]:
# la función choice nos permite elegir la distribución de cada uno de los valores
sample2 = random.choice(an_array, size=100, p=[0.1, 0.4, 0.4, 0.1])
horizontal_histogram(sample2, bins=len(an_array))

  1.0 *****
  2.0 ******************************************
  3.0 **************************************
  4.0 ***************
