<a href="https://colab.research.google.com/github/martinc97/PythonProgramming-notebooks/blob/main/numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# *Numerical Python*: NumPy

## Contenidos

> "*I do not fear computers. I fear lack of them.*" **Isaac Asimov**

- Paquete de computación científica NumPy

    - Introducción
    
    - Conceptos básicos y ejemplos
    
    - Ejercicios

# NumPy

- Paquete de Python para **computación científica** de **alto desempeño** sobre vectores, matrices y estructuras de mayores dimensiones (tensores).

- Implementado en C y Fortran, por lo que cuando se **vectorizan** las oepraciones, el desempeño es muy bueno.

- Ofrece una estructura de datos `ndarray` para procesar de forma **eficiente** datos homogéneos.

- Capacidades de algebra lineal, transformada de Fourier y generación de números aleatorios.

# Pero, ¿y las listas de Python?

- Las listas son muy generales, pueden contener cualquier tipo de objeto.

    - Implementan tipos dinámicos.
    
    - No permiten operaciones matemáticas como la *multiplicación matricial* o *producto punto*.
    
- Los vectores de NumPy son de tipado estático y homogéneo. El tipo del arreglo se determina cuando se crea el vector.

    - Son eficientes en memoria.
    
    - Es posible implementar **funciones universales** (ufuncs). 
    
    - El tipado estático permite implementar operaciones matemáticas de forma eficiente a través de C y Fortran.
    

### Scientific computing benchmark

- [5 Reasons You Should Know NumPy](https://insights.dice.com/2016/09/01/5-reasons-know-numpy/)
- [Matlab, Python, Julia: What to Choose in Economics?](https://lmaliar.ws.gc.cuny.edu/files/2021/03/Coleman2020_Article_MatlabPythonJuliaWhatToChooseI.pdf)
- [Aruoba, SB. A Comparison of Programming Languages in Economics](https://www.nber.org/system/files/working_papers/w20263/w20263.pdf)
- [Aruoba, SB., Fernández-Villaverde, Jesús. A Comparison of Programming Languages in Economics: An Update](https://www.sas.upenn.edu/~jesusfv/Update_March_23_2018.pdf)

<!-- Julia benchmarks -->
![julia-benchmarks.svg](https://julialang.org/assets/benchmarks/benchmarks.svg)


## Importando NumPy

In [None]:
import numpy as np

- Revisamos la versión de NumPy

In [None]:
np.__version__

'1.20.3'

### Obteniendo ayuda

In [None]:
# Obtiene una ventana de ayuda
np.ndarray?

[1;31mInit signature:[0m [0mnp[0m[1;33m.[0m[0mndarray[0m[1;33m([0m[0mself[0m[1;33m,[0m [1;33m/[0m[1;33m,[0m [1;33m*[0m[0margs[0m[1;33m,[0m [1;33m**[0m[0mkwargs[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[1;31mDocstring:[0m     
ndarray(shape, dtype=float, buffer=None, offset=0,
        strides=None, order=None)

An array object represents a multidimensional, homogeneous array
of fixed-size items.  An associated data-type object describes the
format of each element in the array (its byte-order, how many bytes it
occupies in memory, whether it is an integer, a floating point number,
or something else, etc.)

Arrays should be constructed using `array`, `zeros` or `empty` (refer
to the See Also section below).  The parameters given here refer to
a low-level method (`ndarray(...)`) for instantiating an array.

For more information, refer to the `numpy` module and examine the
methods and attributes of an array.

Parameters
----------
(for the __new__ method; see N

In [None]:
# Función help para una función
help(np.array)

***
## La clase `ndarray`

- La clase básica de NumPy se llama `ndarray` (alias `array`). Sus atributos más importantes son: 

    - `ndarray.ndim` : número de dimensiones del arreglo.

    - `ndarray.shape` : dimensiones del arreglo. Esta es una **tupla de enteros** que indica el tamaño de la matriz en cada dimensión. Para una matriz con $n$ filas y $m$ columnas, la forma será $(n, m)$. La longitud de la tupla de forma es, por lo tanto, el número de ejes, `ndim`.

    - `darray.size` : el número total de elementos del arreglo. Es igual al producto de los elementos de la tupla `shape`.

    - `ndarray.dtype` : un **objeto** que describe el **tipo** de los elementos en el arreglo. Es posible crear y especificar `dtypes` propios.
        - Adicionalmente, NumPy provee algunos tipos propios muy utilizados: `numpy.int32`, `numpy.int16`, and `numpy.float64`.

    - `ndarray.itemsize` : el tamaño en bytes de cada elemento en el arreglo. Por ejemplo, un arreglo de tipo `float64` tiene tamaño en bytes de $8 (=64/8)$. Equivalente a `ndarray.dtype.itemsize`.

    - `ndarray.data` : el búfer que contiene los elementos del arreglo. Aunque normalmente, no accedemos al atributo directamente, ya que hacemos uso de los elementos con *slicing*.



In [None]:
a = np.arange(15).reshape(3, 5)
a

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14]])

In [None]:
a.shape

(3, 5)

In [None]:
a.ndim

2

In [None]:
a.dtype

dtype('int32')

In [None]:
a.dtype.name

'int32'

In [None]:
a.itemsize

4

In [None]:
a.size

15

In [None]:
type(a)

numpy.ndarray

***
## **Creando arreglos N-dimensionales de NumPy**

- Hay varias formas de inicializar nuevas matrices numpy, por ejemplo desde

    - Una lista de Python o tuplas.
    
    - Utilizando funciones dedicadas a **generar** arreglos de NumPy.
    
    - Leer información de archivos. 

In [None]:
a = np.array([2,3,4])
a

array([2, 3, 4])

In [None]:
a.dtype

dtype('int32')

In [None]:
b = np.array([1.2, 3.5, 5.1])
b

array([1.2, 3.5, 5.1])

In [None]:
b.dtype

dtype('float64')

#### Error frecuente

Crear el arreglo con varios argumentos en vez de proveer una sola lista o secuencia como argumento

In [None]:
# Error frecuente
a = np.array(1,2,3,4)

ValueError: only 2 non-keyword arguments accepted

### A partir de listas o tuplas 
`ndarray` transforma secuencias de secuencias en matrices bidimensionales, secuencias de secuencias de secuencias en matrices tridimensionales, etc.

In [None]:
b = np.array([[1.5,2,3], [4,5,6]])
b

array([[1.5, 2. , 3. ],
       [4. , 5. , 6. ]])

El tipo de matriz también se puede especificar explícitamente en el momento de la creación:

In [None]:
c = np.array( [ [1,2], [3,4] ], dtype=complex )
c

array([[1.+0.j, 2.+0.j],
       [3.+0.j, 4.+0.j]])

### Funciones de generación de arreglos

In [None]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

In [None]:
# A diferencia de range
np.arange(0, 2, 0.3)

array([0. , 0.3, 0.6, 0.9, 1.2, 1.5, 1.8])

#### Evaluación de funciones

In [None]:
x = np.linspace(0, 2*np.pi, 20)
x

array([0.        , 0.33069396, 0.66138793, 0.99208189, 1.32277585,
       1.65346982, 1.98416378, 2.31485774, 2.64555171, 2.97624567,
       3.30693964, 3.6376336 , 3.96832756, 4.29902153, 4.62971549,
       4.96040945, 5.29110342, 5.62179738, 5.95249134, 6.28318531])

In [None]:
y = np.sin(x)
y 

array([ 0.00000000e+00,  3.24699469e-01,  6.14212713e-01,  8.37166478e-01,
        9.69400266e-01,  9.96584493e-01,  9.15773327e-01,  7.35723911e-01,
        4.75947393e-01,  1.64594590e-01, -1.64594590e-01, -4.75947393e-01,
       -7.35723911e-01, -9.15773327e-01, -9.96584493e-01, -9.69400266e-01,
       -8.37166478e-01, -6.14212713e-01, -3.24699469e-01, -2.44929360e-16])

####  Variables aleatorias

- https://numpy.org/doc/stable/reference/random/generator.html#distributions

In [None]:
b = np.random.random((5, 5))
b

array([[0.72142232, 0.56527412, 0.93729486, 0.73904293, 0.34965775],
       [0.40134957, 0.18217965, 0.80949342, 0.31886651, 0.39768961],
       [0.86279484, 0.56681793, 0.01699586, 0.19132726, 0.46212958],
       [0.63968085, 0.92149101, 0.77778304, 0.20688102, 0.55753814],
       [0.32959062, 0.78894458, 0.2437535 , 0.32328002, 0.71022018]])

#### Unos, ceros

In [None]:
np.zeros([10, 10])

array([[0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

In [None]:
np.ones([5, 5])

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [None]:
# Copiando la forma de x
np.ones_like(x)

array([1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1., 1.,
       1., 1., 1.])

In [None]:
np.identity(5)

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

### Desde archivos

In [None]:
data = np.loadtxt("data1.txt", delimiter=',', skiprows=1)
data

array([0.99523097, 0.36569092, 0.68340567, 0.75332866, 0.77051288,
       0.01431059, 0.59050509, 0.56519456, 0.66747335])

***
## Impresión de arreglos

Cuando imprimes una matriz, NumPy la muestra de forma similar a las listas anidadas, pero con el siguiente diseño:

- el último eje se imprime de izquierda a derecha,

- el penúltimo se imprime de arriba a abajo,

- el resto también se imprime de arriba a abajo, con cada corte separado del siguiente por una línea vacía.

Las matrices unidimensionales se imprimen como filas, bidimensionales como matrices y tridimensionales como listas de matrices.

In [None]:
a = np.arange(6)
print(a)

[0 1 2 3 4 5]


In [None]:
b = np.arange(12).reshape(4,3)
print(b)

[[ 0  1  2]
 [ 3  4  5]
 [ 6  7  8]
 [ 9 10 11]]


In [None]:
c = np.arange(24).reshape(2,3,4) 
print(c)

[[[ 0  1  2  3]
  [ 4  5  6  7]
  [ 8  9 10 11]]

 [[12 13 14 15]
  [16 17 18 19]
  [20 21 22 23]]]


In [None]:
# Si es muy grande, se suprime parte de la salida
print(np.arange(10000))

[   0    1    2 ... 9997 9998 9999]


In [None]:
print(np.arange(10000).reshape(100,100))

[[   0    1    2 ...   97   98   99]
 [ 100  101  102 ...  197  198  199]
 [ 200  201  202 ...  297  298  299]
 ...
 [9700 9701 9702 ... 9797 9798 9799]
 [9800 9801 9802 ... 9897 9898 9899]
 [9900 9901 9902 ... 9997 9998 9999]]


***
## Operaciones básicas

Las operaciones básicas son aplicadas elemento a elemento (*elementwise*). Se crea un nuevo arreglo lleno con el resultado

In [None]:
a = np.array( [20,30,40,50] )
b = np.arange(4)
a, b

(array([20, 30, 40, 50]), array([0, 1, 2, 3]))

In [None]:
c = a - b
c

array([20, 29, 38, 47])

`*` opera en sentido elemento a elemento sobre los arreglos.

In [None]:
# Constante por arreglo
10 * np.sin(a)

array([ 9.12945251, -9.88031624,  7.4511316 , -2.62374854])

In [None]:
# Arreglos lógicos
a < 35

array([ True,  True, False, False])

La multiplicación matricial puede hacerse utilizando `@` o el método `dot`

In [None]:
A = np.array( [[1, 1], [0, 1]] )
B = np.array( [[2, 0], [3, 4]] )

In [None]:
A * B

array([[2, 0],
       [0, 4]])

In [None]:
A @ B

array([[5, 4],
       [3, 4]])

In [None]:
A.dot(B)

array([[5, 4],
       [3, 4]])

In [None]:
np.matmul(A, B)

array([[5, 4],
       [3, 4]])

In [None]:
b = np.random.random((2,3))
b

array([[0.09859514, 0.2208616 , 0.5853165 ],
       [0.38964511, 0.29757204, 0.12178976]])

Operadores `+=` y `*=` son válidos para modificar arreglos existentes.

In [None]:
a = np.ones((2,3), dtype=int)
a *= 3
a

array([[3, 3, 3],
       [3, 3, 3]])

In [None]:
b = np.random.random((2,3))
b +=a 
b

array([[3.90361504, 3.55425235, 3.33945202],
       [3.01908429, 3.39087618, 3.35034525]])

### Métodos útiles

In [None]:
a = np.random.random((2, 3))
a

array([[0.1022778 , 0.93673507, 0.66769084],
       [0.59259965, 0.27387856, 0.78026042]])

In [None]:
a.sum() # equivalente a np.sum(a)

3.3534423304624257

In [None]:
a.min()

0.1022777965107714

In [None]:
a.max()

0.9367350710342566

Por defecto operan sobre el arreglo como si fueran una lista de números. Es posible especificar el eje sobre el cuál se desea aplicar la operación con el parámetro `axis`

In [None]:
b = np.arange(12).reshape(3,4)
b

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
# Suma de las columnas 
b.sum(axis=0)   

array([12, 15, 18, 21])

In [None]:
# Mínimo de cada fila
b.min(axis=1)

array([0, 4, 8])

In [None]:
# Suma acumulada en las columnas 
b.cumsum(axis=1)

array([[ 0,  1,  3,  6],
       [ 4,  9, 15, 22],
       [ 8, 17, 27, 38]], dtype=int32)

***
## Funciones universales (*ufuncs*)

In [None]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [None]:
np.exp(a)

array([ 1.        ,  2.71828183,  7.3890561 , 20.08553692, 54.59815003])

In [None]:
np.sqrt(a)

array([0.        , 1.        , 1.41421356, 1.73205081, 2.        ])

Podemos definir funciones de usuario que sean universales: $$ f(x) = 2x + e^x - \sqrt{x} $$

In [None]:
def f(x):
    return 2*x + np.exp(x) - np.sqrt(x)

In [None]:
f(a)

array([ 1.        ,  3.71828183,  9.97484254, 24.35348612, 60.59815003])

***
## Indexing, Slicing and Iterating

Los arreglos unidimensionales se pueden indexar, dividir e iterar, al igual que las listas y otras secuencias de Python.

In [None]:
a = np.arange(10)**3
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [None]:
a[2]

8

In [None]:
a[2:5]

array([ 8, 27, 64], dtype=int32)

In [None]:
# Asignación múltiple
a[0:6:2] = -1000
a

array([-1000,     1, -1000,    27, -1000,   125,   216,   343,   512,
         729], dtype=int32)

In [None]:
for i in a:
    print(i**(1/3.))

nan
1.0
nan
3.0
nan
5.0
5.999999999999999
6.999999999999999
7.999999999999999
8.999999999999998


  


In [None]:
def f(x,y):
    return 10*x + y

In [None]:
b = np.fromfunction(f, (5,4), dtype=int)
b

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13],
       [20, 21, 22, 23],
       [30, 31, 32, 33],
       [40, 41, 42, 43]])

In [None]:
b[2, 3]

23

In [None]:
b[0:5, 1]

array([ 1, 11, 21, 31, 41])

In [None]:
b[:, 1]

array([ 1, 11, 21, 31, 41])

Cuando se proporcionan menos índices que el número de ejes, los índices faltantes se consideran segmentos completos `:`

In [None]:
# Ultima fila, todas las columnas
b[-1]

array([40, 41, 42, 43])

In [None]:
np.ones((5,4,3,2,1))

array([[[[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]]],



       [[[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]]],



       [[[[1.],
          [1.]],

         [[1.],
          [1.]],

         [[1.],
          [1.]]],


        [[[1.],
          [1.]],

         [[1.],
          

La iteración sobre matrices multidimensionales se realiza con respecto al primer eje

In [None]:
for row in b:
    print(row)

[0 1 2 3]
[10 11 12 13]
[20 21 22 23]
[30 31 32 33]
[40 41 42 43]


Sin embargo, si se desea realizar una operación en cada elemento de la matriz, se puede usar el atributo `flat` que es un iterador sobre todos los elementos de la matriz:

In [None]:
for element in b.flat:
    print(element)

0
1
2
3
10
11
12
13
20
21
22
23
30
31
32
33
40
41
42
43


In [None]:
b.flatten()

array([ 0,  1,  2,  3, 10, 11, 12, 13, 20, 21, 22, 23, 30, 31, 32, 33, 40,
       41, 42, 43])

***
## Manipulación del `shape` (forma) del arreglo

Una matriz tiene una forma dada por el número de elementos a lo largo de cada eje:

In [None]:
a = np.floor ( 10 * np.random.random (( 3 , 4 )))
a

array([[1., 0., 1., 5.],
       [0., 8., 4., 9.],
       [7., 6., 9., 4.]])

In [None]:
a.shape

(3, 4)

La forma de una matriz se puede cambiar con varios comandos. Tenga en cuenta que los siguientes tres comandos devuelven una matriz modificada, pero **no cambian la matriz original**:

In [None]:
a.ravel()  # returns the array, flattened

array([1., 0., 1., 5., 0., 8., 4., 9., 7., 6., 9., 4.])

In [None]:
a.flatten()

array([1., 0., 1., 5., 0., 8., 4., 9., 7., 6., 9., 4.])

In [None]:
a.reshape(6,2)  # returns the array with a modified shape

array([[1., 0.],
       [1., 5.],
       [0., 8.],
       [4., 9.],
       [7., 6.],
       [9., 4.]])

In [None]:
a.T

array([[1., 0., 7.],
       [0., 8., 6.],
       [1., 4., 9.],
       [5., 9., 4.]])

In [None]:
a.T.shape

(4, 3)

- El orden de los elementos en la matriz resultante de `ravel()` es normalmente "estilo `C`", es decir, el índice de la derecha "cambia más rápido", por lo que el elemento después de un `[0,0]` es un `[0,1]`. 

- Si la matriz se reforma a otra forma, nuevamente la matriz se trata como "estilo `C`". NumPy normalmente crea matrices almacenadas en este orden, por lo que `ravel()` generalmente no necesitará copiar su argumento, pero si la matriz se hizo tomando segmentos de otra matriz o se creó con opciones inusuales, es posible que deba copiarse. 

- Las funciones `ravel()` y `reshape()` también se pueden instruir, utilizando un argumento opcional, para usar matrices de estilo FORTRAN, en las que el índice más a la izquierda cambia más rápido.

La función de `reshape` devuelve su argumento con una forma modificada, mientras que el método `ndarray.resize` modifica la matriz en sí:

In [None]:
a

array([[1., 0., 1., 5.],
       [0., 8., 4., 9.],
       [7., 6., 9., 4.]])

In [None]:
a.resize((2, 6))
a

array([[1., 0., 1., 5., 0., 8.],
       [4., 9., 7., 6., 9., 4.]])

array([[1., 0., 1., 5., 0., 8.],
       [4., 9., 7., 6., 9., 4.]])

***
## Apilando los arreglos 
Se pueden apilar varios arreglos a lo largo de diferentes ejes:

In [None]:
a = np.floor(10*np.random.random((2,2)))
a

array([[0., 1.],
       [3., 7.]])

In [None]:
b = np.floor(10*np.random.random((2,2)))
b

array([[2., 2.],
       [6., 7.]])

In [None]:
# np.vstack pide una tupla de ndarrays 
np.vstack((a,b))

array([[0., 1.],
       [3., 7.],
       [2., 2.],
       [6., 7.]])

In [None]:
# np.hstack pide una tupla de ndarrays 
np.hstack((a,b))

array([[0., 1., 2., 2.],
       [3., 7., 6., 7.]])

In [None]:
np.column_stack((a,b)) # Equivalente a np.hstack para arreglos 2D

array([[0., 1., 2., 2.],
       [3., 7., 6., 7.]])

In [None]:
np.hstack((a,b)) 

array([[0., 1., 2., 2.],
       [3., 7., 6., 7.]])

- Cuando los arreglos son 1D, `np.column_stack()` y `np.hstack()` se comportan diferente

In [None]:
a = np.array([4.,2.])
b = np.array([3.,8.])

In [None]:
np.column_stack((a,b))

array([[4., 3.],
       [2., 8.]])

In [None]:
np.hstack((a,b)) 

array([4., 2., 3., 8.])

- Podemos crear nuevas dimensiones en el arreglo con `np.newaxis` o con `None`

In [None]:
a[:, np.newaxis]

array([[4.],
       [2.]])

In [None]:
a[:, None]

array([[4.],
       [2.]])

In [None]:
np.column_stack((a[:, np.newaxis], b[:, np.newaxis]))

array([[4., 3.],
       [2., 8.]])

- Por otro lado, la función `row_stack` es equivalente a `vstack` para cualquier arreglo de entrada. De hecho, `row_stack` es un alias para `vstack`

In [None]:
np.row_stack is np.vstack

True

- En general, para arreglos con más de dos dimensiones:
    
    - `hstack` apila a lo largo del segundo eje, 
    
    - `vstack` apila a lo largo del primer eje y 
    
    - `concatenate` permite argumentos opcionales que dan el número del eje (`axis`) a lo largo del cual debe ocurrir la concatenación.

***
## Separar un arreglo en varios más pequeños

In [None]:
a = np.floor(10*np.random.random((2,12)))
a

array([[4., 5., 5., 4., 8., 8., 8., 5., 7., 9., 5., 5.],
       [9., 9., 8., 8., 5., 5., 1., 6., 1., 2., 3., 8.]])

In [None]:
np.hsplit(a,3)   # Split a into 3

[array([[4., 5., 5., 4.],
        [9., 9., 8., 8.]]), array([[8., 8., 8., 5.],
        [5., 5., 1., 6.]]), array([[7., 9., 5., 5.],
        [1., 2., 3., 8.]])]

In [None]:
np.hsplit(a, (3,4))   # Split a after the third and the fourth column

[array([[4., 5., 5.],
        [9., 9., 8.]]), array([[4.],
        [8.]]), array([[8., 8., 8., 5., 7., 9., 5., 5.],
        [5., 5., 1., 6., 1., 2., 3., 8.]])]

In [None]:
help(np.hsplit)

Help on function hsplit in module numpy:

hsplit(ary, indices_or_sections)
    Split an array into multiple sub-arrays horizontally (column-wise).
    
    Please refer to the `split` documentation.  `hsplit` is equivalent
    to `split` with ``axis=1``, the array is always split along the second
    axis regardless of the array dimension.
    
    See Also
    --------
    split : Split an array into multiple sub-arrays of equal size.
    
    Examples
    --------
    >>> x = np.arange(16.0).reshape(4, 4)
    >>> x
    array([[  0.,   1.,   2.,   3.],
           [  4.,   5.,   6.,   7.],
           [  8.,   9.,  10.,  11.],
           [ 12.,  13.,  14.,  15.]])
    >>> np.hsplit(x, 2)
    [array([[  0.,   1.],
           [  4.,   5.],
           [  8.,   9.],
           [ 12.,  13.]]),
     array([[  2.,   3.],
           [  6.,   7.],
           [ 10.,  11.],
           [ 14.,  15.]])]
    >>> np.hsplit(x, np.array([3, 6]))
    [array([[  0.,   1.,   2.],
           [  4.,   5.,   6

***
## Mutabilidad y clonado

Al operar y manipular arreglos, los datos a veces se copian en un nuevo arreglo y otras no. Esto es a menudo una fuente de confusión para los principiantes. Hay tres casos:

In [None]:
a = np.arange( 12 )
b = a
b is a

True

In [None]:
b.shape = 3, 4
a.shape

(3, 4)

- Cortar una matriz devuelve una vista de ella:

In [None]:
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
s = a [:, 1:3]
s

array([[ 1,  2],
       [ 5,  6],
       [ 9, 10]])

In [None]:
s is a

False

#### Copia profunda 

El método de copy hace una copia completa de la matriz y sus datos.

In [None]:
# a new array object with new data is created
d = a.copy()
d

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
d is a

False

In [None]:
d == a

array([[ True,  True,  True,  True],
       [ True,  True,  True,  True],
       [ True,  True,  True,  True]])

***
## Rutinas de NumPy

[Rutinas y funcionalidad](https://numpy.org/devdocs/reference/routines.html#routines)

***
## Para usuarios ***pro*** (como ustedes)

### *Broadcasting* (difusión)

- Este mecanismo permite que las funciones universales manejen de manera significativa entradas que no tienen exactamente la misma forma.

[General Broadcasting Rules](https://numpy.org/devdocs/user/basics.broadcasting.html)

- Un ejemplo:

In [None]:
x = np.arange(4)
x

array([0, 1, 2, 3])

In [None]:
xx = x.reshape(4,1)
xx

array([[0],
       [1],
       [2],
       [3]])

In [None]:
x + xx

array([[0, 1, 2, 3],
       [1, 2, 3, 4],
       [2, 3, 4, 5],
       [3, 4, 5, 6]])

In [None]:
x.shape

(4,)

In [None]:
xx.shape

(4, 1)

- El *broadcasting* proporciona una forma conveniente de tomar el producto externo (o cualquier otra operación externa) de dos matrices. El siguiente ejemplo muestra una operación de adición externa de dos matrices 1D:

In [None]:
a = np.array([0.0, 10.0, 20.0, 30.0])
b = np.array([1.0, 2.0, 3.0])

In [None]:
a[:, None] + b

array([[ 1.,  2.,  3.],
       [11., 12., 13.],
       [21., 22., 23.],
       [31., 32., 33.]])

Aquí, `None` inserta un nuevo eje en `a`, haciéndolo un arreglo bidimensional de `4x1`. Al combinar este arreglo de `4x1` con `b`, que tiene forma `(3,)`, resulta un arreglo de `4x3`

### ¿Por qué funciona?

- Cuando se operan dos arreglos, NumPy compara sus formas (`shape`) elemento a elemento, empezando por la última dimensión y hacia arriba. 

- Dos dimensiones son compatibles cuando:
    
    - Son iguales, o
    
    - Una de ellas es 1
    
- Cuando alguna de las dos dimensiones es uno, **se utiliza la otra**. 

    - En otras palabras, las dimensiones con tamaño 1 son "estiradas" o "copiadas" para ajustarse a la otra.

***
### *Fancy indexing* y trucos de indexación

- NumPy ofrece más funciones de indexación que las secuencias regulares de Python. Además de la indexación por enteros y sectores, como vimos antes, las matrices se pueden indexar por matrices de enteros y matrices de booleanos.

In [None]:
a = np.arange(11)**2
a

array([  0,   1,   4,   9,  16,  25,  36,  49,  64,  81, 100], dtype=int32)

In [None]:
i = np.array( [ 1,1,3,8,5 ] )
i

array([1, 1, 3, 8, 5])

In [None]:
a[i]   # the elements of a at the positions i

array([ 1,  1,  9, 64, 25], dtype=int32)

In [None]:
j = np.array([[ 3, 4], [ 9, 7 ]])  # a bidimensional array of indices
j

array([[3, 4],
       [9, 7]])

In [None]:
a[j] # the same shape as j

array([[ 9, 16],
       [81, 49]], dtype=int32)

- También podemos dar índices para más de una dimensión. Las matrices de índices para cada dimensión deben tener la misma forma.

In [None]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
i = np.array([[0,1], [1,2]])
j = np.array([[2,1], [3,3]])

In [None]:
i

array([[0, 1],
       [1, 2]])

In [None]:
j

array([[2, 1],
       [3, 3]])

In [None]:
a[i,j] # i and j must have equal shape

array([[ 2,  5],
       [ 7, 11]])

In [None]:
a[i,2]

array([[ 2,  6],
       [ 6, 10]])

In [None]:
a[:,j]

array([[[ 2,  1],
        [ 3,  3]],

       [[ 6,  5],
        [ 7,  7]],

       [[10,  9],
        [11, 11]]])

***
### Búsqueda del máximo

In [None]:
data = np.sin(np.arange(20)).reshape(5,4)
data

array([[ 0.        ,  0.84147098,  0.90929743,  0.14112001],
       [-0.7568025 , -0.95892427, -0.2794155 ,  0.6569866 ],
       [ 0.98935825,  0.41211849, -0.54402111, -0.99999021],
       [-0.53657292,  0.42016704,  0.99060736,  0.65028784],
       [-0.28790332, -0.96139749, -0.75098725,  0.14987721]])

In [None]:
# index of the maxima for each series
ind = data.argmax(axis=0)
ind

array([2, 0, 3, 1], dtype=int64)

***
###  Asignación múltiple con indexación

In [None]:
a = np.arange(5)
a

array([0, 1, 2, 3, 4])

In [None]:
a[[1,3,4]] = 0
a

array([0, 0, 2, 0, 0])

In [None]:
# Se queda la última asignación
a = np.arange(5)
a[[0,0,2]] = [1,2,3]
a

array([2, 1, 3, 3, 4])

***
### Indexado con arreglos booleanos

- Cuando indexamos arreglos con otros arreglos de índices (enteros), proporcionamos la lista de índices para elegir. Con los índices booleanos, el enfoque es diferente; **elegimos explícitamente qué elementos de la matriz queremos y cuáles no**.

La forma más natural en la que uno puede pensar para la indexación booleana es usar matrices booleanas que tengan la misma forma que la matriz original:

In [None]:
a = np.arange(12).reshape(3,4)
a

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [None]:
b = a > 4
b

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

In [None]:
a[b]

array([ 5,  6,  7,  8,  9, 10, 11])

- También se puede utilizar en asignaciones:

In [None]:
a[b] = 0
a

array([[0, 1, 2, 3],
       [4, 0, 0, 0],
       [0, 0, 0, 0]])

***
## Álgebra lineal

In [None]:
a = np.array([[1.0, 2.0], [3.0, 4.0]])
a

array([[1., 2.],
       [3., 4.]])

In [None]:
a.transpose()

array([[1., 3.],
       [2., 4.]])

In [None]:
np.linalg.inv(a)

array([[-2. ,  1. ],
       [ 1.5, -0.5]])

In [None]:
np.eye(2)

array([[1., 0.],
       [0., 1.]])

In [None]:
j = np.array([[0.0, -1.0], [1.0, 0.0]])

j @ j

array([[-1.,  0.],
       [ 0., -1.]])

In [None]:
y = np.array([[5.], [7.]])
y

array([[5.],
       [7.]])

In [None]:
np.linalg.solve(a, y)

array([[-3.],
       [ 4.]])

In [None]:
# eigenvalores y eigenvectores
np.linalg.eig(a)

(array([-0.37228132,  5.37228132]), array([[-0.82456484, -0.41597356],
        [ 0.56576746, -0.90937671]]))

***
## Ejemplo de simulación de Monte Carlo

Vamos a computar una aproximación de $\pi$ utilizando el método de simulación de Monte Carlo.

In [None]:
N = 100 #1000000

In [None]:
# Lista de coordenadas aleatorias
x = np.random.random(N)
y = np.random.random(N)
#x, y

In [None]:
# Pares dentro del círculo
inside = (x-0.5)**2 + (y-0.5)**2 <= (0.5)**2
# inside

In [None]:
# pi/4 = #{adentro} / área rectángulo = #{adentro} / 1
pi_approx = 4*inside.mean()
pi_approx

3.24

***
## Ejemplos de simulación de Monte Carlo

Cada día se acercan a una dulcería una cantidad $X$ de personas, de acuerdo con una distribución de Poisson con parámetro $\lambda = 5$. A cada una de las personas se les ofrecen $N$ tipos de bombones de chocolates de manera independiente, en donde $N$ está distribuida uniformemente entre $1$ y $5$. Cada persona decide si comprar cada chocolate o no, de manera independiente a los otros chocolates, con probabilidad $1/2$. Al final, compra $Y$ de esos $N$ chocolates que se le ofrecieron. El costo de cada chocolate es de Q1.25 por el número de chocolate. Por ejemplo, el chocolate de tipo 1 cuesta Q1.25, el chocolate de tipo 3 cuesta Q3.75, y así sucesivamente hasta el chocolate de tipo 5.

- ¿Cuál es la media de ventas de un día de esta dulcería?

In [None]:
# Simulamos una realización
x = np.random.poisson(5)

sales = np.zeros(x)
for i in range(len(sales)): 
    n = np.random.randint(1, 6)
    prices = 1.25*np.arange(n)
    buy = np.random.choice([True, False], n)
    sales[i] = prices[buy].sum()

print(sales)
print("Sales a day: ", sales.sum())

[5.   1.25 0.   2.5  1.25]
Sales a day:  10.0


Ahora vamos a simular muchas realizaciones y obtener la media de ventas diarias. 

In [None]:
def salesday(): 
    x = np.random.poisson(5)
    sales = np.zeros(x)
    for i in range(len(sales)): 
        n = np.random.randint(1, 6)
        prices = 1.25 * np.arange(1, n+1)
        buy = np.random.randint(0, 2, size=n)
        sales[i] = (prices * buy).sum()
    return sales.sum()

In [None]:
K = 1000 #00
sales_realizations = np.array([salesday() for _ in range(K)])
sales_realizations.mean()


22.12

### Numba

https://numba.pydata.org/

In [None]:
%timeit -r 5 salesday()

103 µs ± 1.69 µs per loop (mean ± std. dev. of 5 runs, 10000 loops each)


In [None]:
from numba import jit

@jit(nopython=True)
def salesday(): 
    x = np.random.poisson(5)
    sales = np.zeros(x)
    for i in range(len(sales)): 
        n = np.random.randint(1, 6)
        prices = 1.25 * np.arange(1, n+1)
        buy = np.random.randint(0, 2, size=n)
        sales[i] = (prices * buy).sum()
    return sales.sum()

In [None]:
%timeit -r 5 salesday()

The slowest run took 6.62 times longer than the fastest. This could mean that an intermediate result is being cached.
3.42 µs ± 2.64 µs per loop (mean ± std. dev. of 5 runs, 1 loop each)


In [None]:
K = 100000
sales_realizations = np.array([salesday() for _ in range(K)])
sales_realizations.mean()

21.9384125

***
## Ejercicios

1. De las siguientes secciones, escoger 25 funciones de NumPy y mostrar su utilización en un ejemplo.

    - [Array creation routines](https://numpy.org/devdocs/reference/routines.array-creation.html)

    - [Array manipulation routines](https://numpy.org/devdocs/reference/routines.array-manipulation.html)

    - [Binary operations](https://numpy.org/devdocs/reference/routines.bitwise.html)

    - [String operations](https://numpy.org/devdocs/reference/routines.char.html)
    

2. Crear un ejemplo de cómo guardar y cargar arreglos de un archivo binario `.npy` y `.npz`:

    - [NumPy binary files (NPY, NPZ)](https://numpy.org/devdocs/reference/routines.io.html#numpy-binary-files-npy-npz)
    
3. Crear un ejemplo de cómo guardar y cargar arreglos de un archivo de texto `.txt`:

    - [NumPy Text files](https://numpy.org/devdocs/reference/routines.io.html#text-files)    
    
4. Crear una función llamada `ols_estimation` que reciba las variables `X` e `y`, que corresponden a una matriz de diseño con las variables $(x_{1i}, \ldots, x_{5i})$ e $y_i$. Puede guiarse con los datos simulados.
    - Esta función debe computar los parámetros del modelo de regresión lineal $y = X\beta + u$ por el método de mínimos cuadrados ordinarios. 
    - El cómputo debe llevarse a cabo utilizando operaciones matriciales. 
    - Estos parámetros deben ser devueltos como un arreglo de NumPy. 
    - Compare el resultado de su estimación con el de `beta_true` para diferentes configuraciones de ruido. 

In [None]:
n = 25
X = np.column_stack((np.ones((n, 1)), np.random.rand(n, 5)))
beta_true = np.random.rand(6, 1)
y = (X @ beta_true) + 0.5*np.random.rand(n, 1)

print(beta_true)

[[0.47776957]
 [0.48416202]
 [0.63520921]
 [0.76607352]
 [0.97886951]
 [0.26585166]]


In [None]:
X.shape, y.shape

((25, 6), (25, 1))