<a href="https://colab.research.google.com/github/gmauricio-toledo/Curso-Python-2023/blob/main/Notebooks/06-Numpy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div>
<img src="https://github.com/gmauricio-toledo/Curso-Python-2023/blob/main/Notebooks/img/numpy-logo.png?raw=1" width="800"/>
</div>

[NumPy](https://numpy.org/doc/stable/user/index.html#user) es el paquete fundamental para la computación científica en Python. Es una biblioteca de Python que proporciona un objeto de matriz multidimensional, varios objetos derivados y muchas rutinas para realizar operaciones rápidas con matrices, incluidas operaciones matemáticas, lógicas, de manipulación de formas, ordenación, selección, I/O, transformadas discretas de Fourier, álgebra lineal básica, operaciones estadísticas básicas, simulación aleatoria y mucho más.

Además, NumPy es usado ampliamente por otros módulos importantes de Python como Pandas, Scikit learn, TensorFlow, etc.

NumPy ofrece una enorme gama de formas rápidas y eficientes de crear arreglos y manipular datos numéricos dentro de ellos.

Mientras que una lista Python puede contener diferentes tipos de datos dentro de una misma lista, todos los elementos de un array NumPy deben ser homogéneos. Las operaciones matemáticas que se realizan sobre arrays serían extremadamente ineficientes si los arrays no fueran homogéneos.

Los arrays de NumPy son más rápidos y compactos que las listas de Python. Un array consume menos memoria y es cómodo de usar. NumPy utiliza mucha menos memoria para almacenar datos (ya que no necesita almacenar el tipo de dato de cada entrada) y proporciona un mecanismo de especificación de los tipos de datos. Esto permite optimizar aún más el código.

In [None]:
import numpy

*Tradicionalmente* se importa con el siguiente alias

In [16]:
import numpy as np

#Inicialización de arreglos `ndarray`

Una de las clases fundamentales y básicas de Numpy es el arreglo `numpy.array`. Este puede pensarse como un vector, matriz o tensor $n$-dimensional.

* **Vectores**: Arreglos unidimensionales de tamaño (*forma*) $(n,)$.
* **Matrices**: Arreglos bidimensionales de tamaño $(n,m)$. Son $n$ filas y $m$ columnas.

Se puede definir a partir de varios métodos o a partir de una lista de python. [Detalles](https://numpy.org/doc/stable/user/basics.creation.html)

**Ejemplo:** Definiendo un arreglo de numpy a partir de una lista de Python. Pensémoslo como un vector.

In [31]:
valores = [3,2,-3,5.5]

arreglo = np.array(valores)

print(arreglo)
print(type(arreglo))

[ 3.   2.  -3.   5.5]
<class 'numpy.ndarray'>


**Ejemplo:** También podemos definir arreglos bidimensionales. Penśemoslos como matrices.

In [None]:
valores = [[-1,1],[0,3],[2,-1],[0.5,-3]]

matriz = np.array(valores)

### Opcional: Acerca del menor consumo de memoria de numpy vs listas:

In [5]:
import sys

valores = [3,2,-3,5.5]
arreglo = np.array(valores)

sys.getsizeof(valores), sys.getsizeof(arreglo)

(88, 128)

In [15]:
import numpy as np
import sys

N = int(1e7)

narray = np.zeros(N)
mylist = []

for i in range(N):
    mylist.append(narray[i])

print("size of np.array:", sys.getsizeof(narray))
print("size of list    :", sys.getsizeof(mylist))

size of np.array: 80000096
size of list    : 81528048


**Ejemplo:** Definiendo un arreglo de numpy de tamaño determinado lleno con ceros o unos.

In [29]:
arreglo_ceros = np.zeros(shape=(4,))
print(arreglo_ceros,end='\n\n')

matriz_unos = np.ones(shape=(3,2))
print(matriz_unos)

[0. 0. 0. 0.]

[[1. 1.]
 [1. 1.]
 [1. 1.]]


**Ejemplo:** Definir una matriz de números aleatorios de una distribución normal

[Documentación](https://numpy.org/doc/stable/reference/random/generated/numpy.random.normal.html)

In [30]:
# np.random.seed(55)

arreglo_aleatorio = np.random.normal(size=(2,3,4))
# arreglo_aleatorio = np.random.normal(loc=0,scale=1,size=(2,3,4))
arreglo_aleatorio

array([[[ 0.67862785, -1.58059395,  2.42696827,  0.98893747],
        [ 0.73614046, -0.82157055, -0.68289584,  1.23945655],
        [ 0.30007895,  0.05940931,  0.86640305, -1.45346154]],

       [[ 0.52663966, -0.22519522,  1.13076532, -0.11028401],
        [-0.57667171, -0.84829107,  0.58123634, -1.6580248 ],
        [ 1.63929613, -0.05786003,  0.40608557, -1.77364054]]])

# Algunos métodos y atributos de los arreglos de Numpy 

Una vez que tenemos un arreglo, podemos usar cualquiera de los métodos de un arreglo de numpy. Por ejemplo,

* La forma del arreglo:

In [32]:
print(arreglo.shape)
print(matriz_unos.shape)
print(arreglo_aleatorio.shape)

(4,)
(3, 2)
(2, 3, 4)


**Son tuplas**. Por lo tanto, podemos hacer:

In [36]:
print(f"Tenemos {matriz_unos.shape[1]} columnas en la matriz de 1's")

Tenemos 2 columnas en la matriz de 1's


* El número de dimensiones del arreglo

In [33]:
print(arreglo.ndim)
print(matriz_unos.ndim)
print(arreglo_aleatorio.ndim)

1
2
3


## Métodos de los arreglos

Podemos cambiar la forma de un arreglo usando el método `reshape`

In [82]:
v = np.array(list(range(12)))
print(v)

w = v.reshape(3,4)
print(w) 

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [85]:
w = v.reshape(3,-1)
print(w)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Cambiemos el vector a un vector columna:

In [87]:
w = v.reshape(-1,1)
w

array([[ 0],
       [ 1],
       [ 2],
       [ 3],
       [ 4],
       [ 5],
       [ 6],
       [ 7],
       [ 8],
       [ 9],
       [10],
       [11]])

El método `transpose()` transpone la matriz

In [86]:
w.transpose()

array([[ 0,  4,  8],
       [ 1,  5,  9],
       [ 2,  6, 10],
       [ 3,  7, 11]])

# Indexación

Podemos acceder a los valores individuales del arreglo, renglones o filas.

**Recordar que en python indexamos las secuencias como $0,1,2,...$ en lugar de $1,2,3,...$**

In [91]:
matriz = np.array([[-1,1],[0,3],[2,-1],[0.5,-3]])
matriz

array([[-1. ,  1. ],
       [ 0. ,  3. ],
       [ 2. , -1. ],
       [ 0.5, -3. ]])

In [40]:
entrada = matriz[1,0]
print(f"Elemento (2,1): {entrada}")

entrada = matriz[1,-1]
print(f"Elemento en la segunda fila y última columna: {entrada}")

renglon = matriz[1]
renglon = matriz[1,:]
print(f"Renglón segundo: {renglon}")

columna = matriz[:,0]
print(f"Columna primera: {columna}")

Elemento (2,1): 0.0
Elemento en la segunda fila y última columna: 3.0
Renglón segundo: [0. 3.]
Columna primera: [-1.   0.   2.   0.5]


La siguiente técnica se llama **slicing**. En este caso, extraemos la submatriz compuesta por el segundo y tercer renglón, segunda y tercer columna. 

In [94]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

A[1:,1:-1]

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([[ 5,  6],
       [ 9, 10]])

**¡Precaución!** Cuando hacemos un slicing de un arreglo y queremos modificarlo, hay que tener en cuenta que esto modifica el arreglo original del cual se hizo el slicing. Para evitar esto, se hace una copia.

In [95]:
print(A)

A0 = A[1:,1:-1]
A0 += 3

print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 0  1  2  3]
 [ 4  8  9  7]
 [ 8 12 13 11]]


In [96]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

A0 = A[1:,1:-1].copy()
A0 += 3

print(A0)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]
[[ 8  9]
 [12 13]]
[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


## Mascaras

In [134]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


Una **mascara** es un arreglo de booleanos que índica si una entrada de un arreglo satisface una condición.

In [130]:
A>4

array([[False, False, False, False],
       [False,  True,  True,  True],
       [ True,  True,  True,  True]])

Las mascaras son útiles para operar sobre partes de arreglos que satisfacen alguna condición

In [131]:
A[A>4]=-1
print(A)

[[ 0  1  2  3]
 [ 4 -1 -1 -1]
 [-1 -1 -1 -1]]


¿Qué entradas del arreglo son múltiplos de 3?

In [137]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

A%3==0

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


array([[ True, False, False,  True],
       [False, False,  True, False],
       [False,  True, False, False]])

Estas entradas que sean múltiplos de 3, multipliquemoslas por 5:

In [138]:
A[A%3==0] *= 5
print(A)

[[ 0  1  2 15]
 [ 4  5 30  7]
 [ 8 45 10 11]]


# Aritmética en Numpy (Vectorización)

Consideremos los vectores siguientes:

In [43]:
v = np.array([-1,2,0,1,5,4])
w = np.array([3,1,-2,5,-9,-3])

Un ejemplo más grande:

In [49]:
# v = np.random.uniform(size=(10000,))
# w = np.random.uniform(size=(10000,))

# print(v[:5])
# print(w[:5])

[0.96253767 0.72003781 0.0900582  0.39528106 0.31393015]
[0.53925356 0.39193704 0.15014716 0.80323829 0.17361649]


¿Cómo sumaríamos dos vectores? 

In [55]:
import time 

suma = np.zeros_like(v)
inicio = time.time()
for j in range(v.shape[0]):
    suma[j] = v[j]+w[j]
final = time.time()
print(f"Duración: {final-inicio} segundos")
print(suma)

Duración 0.00754547119140625
[1.50179123 1.11197485 0.24020537 ... 0.51203559 1.33850677 0.21153766]


Otra manera, usando la función `enumerate`:

In [54]:
suma = np.zeros_like(v)

for j,(vi,wi) in enumerate(zip(v,w)):
    if j <= 2:
        print(j,vi,wi)
    suma[j] = vi+wi
print(suma)

0 0.9625376706596243 0.5392535630520363
1 0.7200378128544731 0.3919370378277848
2 0.09005820299173217 0.15014716242627235
[1.50179123 1.11197485 0.24020537 ... 0.51203559 1.33850677 0.21153766]


Usando vectorización de Numpy:

In [56]:
import time 

inicio = time.time()
suma = v+w
final = time.time()
print(f"Duración: {final-inicio} segundos")
print(suma)

Duración 0.0002486705780029297
[1.50179123 1.11197485 0.24020537 ... 0.51203559 1.33850677 0.21153766]


**Ejemplos:** Realizar una operación, coordenada a coordenada, con cada entrada de un vector o una matriz

In [57]:
v = np.array([-1,2,0,1,5,4])
w = np.array([3,1,-2,5,-9,-3])

In [58]:
v+1

array([0, 3, 1, 2, 6, 5])

In [59]:
v*3

array([-3,  6,  0,  3, 15, 12])

In [60]:
v**2

array([ 1,  4,  0,  1, 25, 16])

In [69]:
v/w

array([-0.33333333,  2.        , -0.        ,  0.2       , -0.55555556,
       -1.33333333])

In [62]:
v**np.abs(w)

array([     -1,       2,       0,       1, 1953125,      64])

In [63]:
np.sqrt(np.abs(v))

array([1.        , 1.41421356, 0.        , 1.        , 2.23606798,
       2.        ])

Observar lo que ocurre si usamos la implementación de la raíz cuadrada del módulo `math`:

In [None]:
from math import sqrt

sqrt(np.abs(v))

In [65]:
np.sum(v*w)

-53

# Funciones de Numpy

Numpy tiene también funciones que operan sobre arreglos

In [107]:
v = np.array([-1,2,0,1,5,4])
print(v)

[-1  2  0  1  5  4]


Promedio, suma, máximos y mínimos

In [108]:
print(f"La suma de todos los elementos de v es {np.sum(v)}")
print(f"El promedio de todos los elementos de v es {np.mean(v)}")
print(f"El máximo del arreglo es {np.max(v)}")
print(f"El máximo del arreglo se alcanza en el índice {np.argmax(v)}")
print(f"El mínimo del arreglo es {np.min(v)}")
print(f"El máximo del arreglo se alcanza en el mínimo {np.argmin(v)}")

La suma de todos los elementos de v es 11
El promedio de todos los elementos de v es 1.8333333333333333
El máximo del arreglo es 5
El máximo del arreglo se alcanza en el índice 4
El mínimo del arreglo es -1
El máximo del arreglo se alcanza en el mínimo 0


Ahora, en matrices:

In [105]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [110]:
print(f"La suma de todos los elementos de A es {np.sum(A)}")
print(f"El promedio de todos los elementos de A es {np.mean(A)}")
print(f"El máximo del arreglo es {np.max(A)}")
print(f"El máximo del arreglo se alcanza en el índice {np.argmax(A)}")
print(f"El mínimo del arreglo es {np.min(A)}")
print(f"El máximo del arreglo se alcanza en el mínimo {np.argmin(A)}")

La suma de todos los elementos de A es 66
El promedio de todos los elementos de A es 5.5
El máximo del arreglo es 11
El máximo del arreglo se alcanza en el índice 11
El mínimo del arreglo es 0
El máximo del arreglo se alcanza en el mínimo 0


**Las operaciones se están haciendo sobre la matriz aplanada.** Si queremos que se por renglones o filas, hacemos: 

In [113]:
print(A)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]]


In [119]:
print(f"La suma de todos los elementos de A, por columna, es {np.sum(A,axis=0)}") # Desaparecemos el axis=0 (filas)
print(f"La suma de todos los elementos de A, por fila, es {np.sum(A,axis=1)}\n") # Desaparecemos el axis=1 (columnas)
print(f"El promedio de todos los elementos de A, por columna, es {np.mean(A,axis=0)}")
print(f"El promedio de todos los elementos de A, por fila, es {np.mean(A,axis=1)}\n")
print(f"El máximo del arreglo, por columna, es {np.max(A,axis=0)}")
print(f"El máximo del arreglo, por fila, es {np.max(A,axis=1)}\n")
print(f"El máximo del arreglo, por columna, se alcanza en los índices {np.argmax(A,axis=0)} de las filas")
print(f"El máximo del arreglo, por fila, se alcanza en los índices {np.argmax(A,axis=1)} de las columnas\n")

La suma de todos los elementos de A, por columna, es [12 15 18 21]
La suma de todos los elementos de A, por fila, es [ 6 22 38]

El promedio de todos los elementos de A, por columna, es [4. 5. 6. 7.]
El promedio de todos los elementos de A, por fila, es [1.5 5.5 9.5]

El máximo del arreglo, por columna, es [ 8  9 10 11]
El máximo del arreglo, por fila, es [ 3  7 11]

El máximo del arreglo, por columna, se alcanza en los índices [2 2 2 2] de las filas
El máximo del arreglo, por fila, se alcanza en los índices [3 3 3] de las columnas



## Ejemplo 1: Calcular errores

Definimos una función para calcular el error absoluto entre un valor real y una aproximación a este valor

In [66]:
import numpy as np

def error_absoluto(real, aproximacion):
    return np.abs(real-aproximacion)

def error_relativo(real, aproximacion):
    '''
    Implementar la función
    '''
    pass  # instrucción para "dejar en blanco" el cuerpo de una función

Como ejemplo, consideremos el siguiente valor real y una secuencia de aproximaciones a dicho valor real

In [67]:
valor_real = 4.5

aproximaciones = [2.5, 2.7, 3.1, 3.6, 3.9, 4.2, 4.6, 4.55]

Usando un ciclo `for` calculamos e imprimimos el error absoluto entre cada valor de la secuencia y el valor real

In [68]:
for aprox in aproximaciones:
    print(f"Error absoluto: {error_absoluto(valor_real,aprox)}")
    # print(f"Error absoluto: {round(error_absoluto(valor_real,aprox),3)}")

Error absoluto: 2.0
Error absoluto: 1.7999999999999998
Error absoluto: 1.4
Error absoluto: 0.8999999999999999
Error absoluto: 0.6000000000000001
Error absoluto: 0.2999999999999998
Error absoluto: 0.09999999999999964
Error absoluto: 0.04999999999999982


Usando numpy podemos simplificar el proceso anterior y hacerlo más rápido. Esta es una de muchas ventajas de Numpy.

In [70]:
aproximaciones = np.array(aproximaciones)

error_absoluto(valor_real, aproximaciones)

array([2.  , 1.8 , 1.4 , 0.9 , 0.6 , 0.3 , 0.1 , 0.05])

## Ejemplo 2: Regresión Lineal

Implementaremos una función que realice la regresión lineal de un conjunto de datos. Lo haremos de dos maneras:

1. Usando una implementación clásica, con ciclos.
2. Usando vectorización de Numpy.

La función regresará la pendiente y la ordenada al origen de la recta que mejor aproxima (por mínimos cuadrados) a los datos. Estos dos números están determinados por

$$m=\frac{n\sum x_iy_i-\sum x_i \sum y_i}{n\sum x_i^2-(\sum x_i)^2}$$

$$b=\overline{y} - m \overline{x}$$

donde $\overline{y}$, $\overline{x}$ son los promedios de las coordenadas $y_i,x_i$ respectivamente. Los datos están dados por 

$$
\begin{array}{cc}
x_1 & y_1 \\
x_2 & y_2 \\
\cdots & \cdots \\
x_n & y_n
\end{array}
$$

**Observar que, en esta implementación, no estamos calculamos el coeficiente de determinación u otras métricas de rendimiento**

1. Usando ciclos

In [71]:
def regresion_lineal(datos, report=False):
    n = datos.shape[0]
    #--- calculamos los promedios
    sum_x = 0
    for x in datos[:,0]:
        sum_x += x
    x_prom = sum_x/n
    sum_y = 0
    for x in datos[:,1]:
        sum_y += x
    y_prom = sum_y/n
    sum_xy = np.sum(datos[:,0]*datos[:,1])
    sum_x_2s = np.sum(datos[:,0]*datos[:,0])
    if report:
        print(f"x_prom = {x_prom},\ny_prom = {y_prom},\nsum_xy = {sum_xy},\nsum_x_2s = {sum_x_2s},\nsum_x = {sum_x},\nsum_y = {sum_y}")
    a_1 = (n*sum_xy - sum_x*sum_y)/(n*sum_x_2s - sum_x**2)
    a_0 = y_prom - a_1*x_prom
    print(f"Pendiente: {a_1}, Intercepto: {a_0}")
    return (a_0,a_1)

2. Usando vectorización de Numpy

In [72]:
import numpy as np

def regresion_lineal_vectorizada(datos, report=False):
    n = datos.shape[0]
    x_prom = np.mean(datos,axis=0)[0]
    y_prom = np.mean(datos,axis=0)[1]
    sum_xy = np.sum(datos[:,0]*datos[:,1])
    sum_x_2s = np.sum(datos[:,0]*datos[:,0])
    sum_x = np.sum(datos[:,0])
    sum_y = np.sum(datos[:,1])
    if report:
        print(f"x_prom = {x_prom},\ny_prom = {y_prom},\nsum_xy = {sum_xy},\nsum_x_2s = {sum_x_2s},\nsum_x = {sum_x},\nsum_y = {sum_y}")
    a_1 = (n*sum_xy - sum_x*sum_y)/(n*sum_x_2s - sum_x**2)
    a_0 = y_prom - a_1*x_prom
    print(f"Pendiente: {a_1}, Intercepto: {a_0}")
    return (a_0,a_1)

Probemos con un ejemplo

In [73]:
datos = np.array([[0,2,4,6,9,11,12,15,17,19],[5,6,7,6,9,8,7,10,12,12]]).transpose()
print(datos)

[[ 0  5]
 [ 2  6]
 [ 4  7]
 [ 6  6]
 [ 9  9]
 [11  8]
 [12  7]
 [15 10]
 [17 12]
 [19 12]]


In [78]:
regresion_lineal(datos)

Pendiente: 0.35246995994659547, Intercepto: 4.851535380507342


(4.851535380507342, 0.35246995994659547)

In [79]:
regresion_lineal_vectorizada(datos)

Pendiente: 0.35246995994659547, Intercepto: 4.851535380507342


(4.851535380507342, 0.35246995994659547)

Podríamos graficar estas rectas y datos, esto lo haremos en la siguiente sesión