<a href="https://colab.research.google.com/github/jcrpanta/Cursos-Extracurriculares-MatUson-Python/blob/main/S2_1_NumPy.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div>
<img src="https://github.com/gmauricio-toledo/Curso-Python-2023/blob/main/Notebooks/img/numpy-logo.png?raw=1" width="800"/>
</div>

[NumPy](https://numpy.org/doc/stable/user/index.html#user) es el paquete fundamental para la computación científica en Python. Es una biblioteca de Python que proporciona un objeto de matriz multidimensional, varios objetos derivados y muchas rutinas para realizar operaciones rápidas con matrices, incluidas operaciones matemáticas, lógicas, de manipulación de formas, ordenación, selección, I/O, transformadas discretas de Fourier, álgebra lineal básica, operaciones estadísticas básicas, simulación aleatoria y mucho más.

Además, NumPy es usado ampliamente por otros módulos importantes de Python como Pandas, Scikit learn, TensorFlow, etc.

NumPy ofrece una enorme gama de formas rápidas y eficientes de crear arreglos y manipular datos numéricos dentro de ellos.

Mientras que una lista Python puede contener diferentes tipos de datos dentro de una misma lista, todos los elementos de un array NumPy deben ser homogéneos. Las operaciones matemáticas que se realizan sobre arrays serían extremadamente ineficientes si los arrays no fueran homogéneos.

Los arrays de NumPy son más rápidos y compactos que las listas de Python. Un array consume menos memoria y es cómodo de usar. NumPy utiliza mucha menos memoria para almacenar datos (ya que no necesita almacenar el tipo de dato de cada entrada) y proporciona un mecanismo de especificación de los tipos de datos. Esto permite optimizar aún más el código.

In [None]:
import numpy

*Tradicionalmente* se importa con el siguiente alias

In [None]:
import numpy as np

#Inicialización de arreglos `ndarray`

Una de las clases fundamentales y básicas de Numpy es el arreglo `numpy.ndarray`. Este puede pensarse como un vector, matriz o tensor $n$-dimensional.

* **Vectores**: Arreglos unidimensionales de tamaño (forma) $(n,)$.
* **Matrices**: Arreglos bidimensionales de tamaño $(n,m)$. Son $n$ filas y $m$ columnas.

Se puede definir a partir de varios métodos (funciones de Numpy que generan arreglos de acuerdo a ciertas condiciones) o a partir de una lista de python. [Detalles](https://numpy.org/doc/stable/user/basics.creation.html)

**Ejemplo:** Definiendo un arreglo de numpy a partir de una lista de Python. Pensémoslo como un vector.

In [None]:
valores = [3,2,-3,5.5]

arreglo = np.array(valores)

print(arreglo)
print(type(arreglo))

**Ejemplo:** También podemos definir arreglos bidimensionales. Penśemoslos como matrices.

In [None]:
valores = [[-1,1],[0,3],[2,-1],[0.5,-3]]

matriz = np.array(valores,dtype=float)
print(matriz)

**Ejemplo:** Definiendo un arreglo de numpy de tamaño determinado lleno con ceros o unos.

In [None]:
arreglo_ceros = np.zeros(shape=(4,))
print(arreglo_ceros,end='\n\n')

matriz_unos = np.ones(shape=(3,2))
print(matriz_unos)

**Ejemplo:** Definir una matriz de números aleatorios de una distribución normal

[Documentación](https://numpy.org/doc/stable/reference/random/generated/numpy.random.normal.html)

In [None]:
# np.random.seed(55)

arreglo_aleatorio = np.random.normal(size=(2,3,4))
# arreglo_aleatorio = np.random.normal(loc=0,scale=1,size=(2,3,4))
arreglo_aleatorio

# Algunos métodos y atributos de los arreglos de Numpy

[Lista de atributos y métodos de un arreglo de Numpy](https://numpy.org/doc/stable/reference/generated/numpy.ndarray.html)

Una vez que tenemos un arreglo, podemos usar cualquiera de los métodos de un arreglo de numpy. Por ejemplo,

* La forma del arreglo:

In [None]:
print(arreglo.shape)
print(matriz_unos.shape)
print(arreglo_aleatorio.shape)

**Son tuplas**. Por lo tanto, podemos hacer:

In [None]:
print(f"Tenemos {matriz_unos.shape[1]} columnas en la matriz de 1's")

* El número de dimensiones del arreglo

In [None]:
print(arreglo.ndim)
print(matriz_unos.ndim)
print(arreglo_aleatorio.ndim)

## Métodos de los arreglos

Cada arreglo tiene métodos, son funciones que el arreglo saber hacer sobre sí mismo.

Podemos cambiar la forma de un arreglo usando el método `reshape`

In [None]:
v = np.array(list(range(12)))
print(v)

w = v.reshape(3,4)
print(w)

In [None]:
w = v.reshape(3,-1)
print(w)

Cambiemos el vector a un vector columna:

In [None]:
w = v.reshape(-1,1)
w

El método `transpose()` transpone la matriz

In [None]:
w = v.reshape(3,-1)
w.transpose()

# Indexación

Podemos acceder a los valores individuales del arreglo, renglones o filas.

**Recordar que en python indexamos las secuencias como $0,1,2,...$ en lugar de $1,2,3,...$**

In [None]:
matriz = np.array([[-1,1],[0,3],[2,-1],[0.5,-3]])
matriz

In [None]:
entrada = matriz[1,0]
print(f"Elemento (2,1): {entrada}")

entrada = matriz[1,-1]
print(f"Elemento en la segunda fila y última columna: {entrada}")

renglon = matriz[1]
renglon = matriz[1,:]
print(f"Renglón segundo: {renglon}")

columna = matriz[:,0]
print(f"Columna primera: {columna}")

La siguiente técnica se llama **slicing**. En este caso, extraemos la submatriz compuesta por el segundo y tercer renglón, segunda y tercer columna.

In [None]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

A[1:,1:-1]

**¡Precaución!** Cuando hacemos un slicing de un arreglo y queremos modificarlo, hay que tener en cuenta que esto modifica el arreglo original del cual se hizo el slicing. Para evitar esto, se hace una copia.

In [None]:
print(A)

A0 = A[1:,1:-1]
A0 += 3

print(A)

In [None]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

A0 = A[1:,1:-1].copy()
A0 += 3

print(A0)
print(A)

## Máscaras

In [None]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

Una **mascara** es un arreglo de booleanos que índica si una entrada de un arreglo satisface una condición.

In [None]:
A>4

Las mascaras son útiles para operar sobre partes de arreglos que satisfacen alguna condición

In [None]:
A[A>4]=-1
print(A)

¿Qué entradas del arreglo son múltiplos de 3?

In [None]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

A%3==0

Estas entradas que sean múltiplos de 3, multipliquemoslas por 5:

In [None]:
A[A%3==0] *= 5
print(A)

# Aritmética en Numpy (Vectorización)

Consideremos los vectores siguientes:

In [None]:
v = np.array([-1,2,0,1,5,4])
w = np.array([3,1,-2,5,-9,-3])

Un ejemplo más grande:

In [None]:
# v = np.random.uniform(size=(10000,))
# w = np.random.uniform(size=(10000,))

# print(v[:5])
# print(w[:5])

¿Cómo sumaríamos dos vectores?

In [None]:
import time

suma = np.zeros_like(v)
inicio = time.time()
for j in range(v.shape[0]):
    suma[j] = v[j]+w[j]
final = time.time()
print(f"Duración: {final-inicio} segundos")
print(suma)

Otra manera, usando la función `enumerate`:

In [None]:
suma = np.zeros_like(v)

for j,(vi,wi) in enumerate(zip(v,w)):
    # if j <= 2:
    #     print(j,vi,wi)
    suma[j] = vi+wi
print(suma)

Usando vectorización de Numpy:

In [None]:
import time

inicio = time.time()
suma = v+w
final = time.time()
print(f"Duración: {final-inicio} segundos")
print(suma)

**Ejemplos:** Realizar una operación, coordenada a coordenada, con cada entrada de un vector o una matriz

In [None]:
v = np.array([-1,2,0,1,5,4])
w = np.array([3,1,-2,5,-9,-3])

In [None]:
v+1

In [None]:
v*3

In [None]:
v**2

In [None]:
v/w

In [None]:
v**np.abs(w)

In [None]:
np.sqrt(np.abs(v))

Observar lo que ocurre si usamos la implementación de la raíz cuadrada del módulo `math`:

In [None]:
from math import sqrt

sqrt(np.abs(v))

## Productos

In [None]:
import numpy as np

In [None]:
A = np.array([[3,2,1],[5,3,4],[1,1,-1]],dtype=float)
B = np.array([[1,0,0],[0,1,1],[0,0,1]],dtype=float)

print(B)
print(A)

Tres maneras de realizar el producto de matrices

In [None]:
print(np.dot(B,A))
print(B@A)
print(np.matmul(B,A))

Ahora, realicemos el producto punto de dos vectores

In [None]:
u = np.array([3,2,0,-4])
v = np.array([-1,1,3,-2])

print(u,v)

Dos maneras de hacer el producto punto de dos maneras:

In [None]:
print(np.dot(u,v))
print(np.matmul(u,v))

In [None]:
np.sum(u*v)

## Un poco de algebra lineal

Numpy contiene el submodulo [`linalg`](https://numpy.org/doc/stable/reference/routines.linalg.html) con el cual podemos hacer algebra lineal.

In [None]:
import numpy as np

A = np.array([[3,2,0,5],[0,1,4,2],[0,0,-2,3],[0,0,0,-5]],dtype=float)
print(A)

Podemos importar el submodulo de varias formas. En este ejemplo, calculamos el determinante de la matriz A

In [None]:
from numpy import linalg

linalg.det(A)

In [None]:
np.linalg.det(A)

In [None]:
from numpy.linalg import det

det(A)

**Ejemplo:** Calculamos la inversa de la matriz A

In [None]:
np.linalg.inv(A)

**Ejemplo:** Resolver el sistema de ecuaciones

$$\left(\begin{array}{ccc}
3 & 2 & 1 \\
5 & 3 & 4 \\
1 & 1 & -1  
\end{array}\right)
\left(
\begin{array}{c}
x \\
y \\
z  
\end{array}
\right)
=
\left(
\begin{array}{c}
1 \\
2 \\
1  
\end{array}
\right)
$$

usaremos la función [`solve`](https://numpy.org/doc/stable/reference/generated/numpy.linalg.solve.html) la cual usa la implementación [LAPACK routine _gesv](https://www.netlib.org/lapack/explore-html/d7/d3b/group__double_g_esolve_ga5ee879032a8365897c3ba91e3dc8d512.html).

In [None]:
A = np.array([[3,2,1],[5,3,4],[1,1,-1]],dtype=float)
b = np.array([1,2,1])
print(A,b)

np.linalg.solve(A,b)

En el ejemplo anterior, calculemos la norma del vector $b$

In [None]:
np.linalg.norm(b)

# Funciones de Numpy

Numpy tiene también funciones que operan sobre arreglos

In [None]:
v = np.array([-1,2,0,1,5,4])
print(v)

Promedio, suma, máximos y mínimos

In [None]:
print(f"La suma de todos los elementos de v es {np.sum(v)}")
print(f"El promedio de todos los elementos de v es {np.mean(v)}")
print(f"El máximo del arreglo es {np.max(v)}")
print(f"El máximo del arreglo se alcanza en el índice {np.argmax(v)}")
print(f"El mínimo del arreglo es {np.min(v)}")
print(f"El máximo del arreglo se alcanza en el mínimo {np.argmin(v)}")

Ahora, en matrices:

In [None]:
A = np.array(list(range(12))).reshape(3,4)
print(A)

In [None]:
print(f"La suma de todos los elementos de A es {np.sum(A)}")
print(f"El promedio de todos los elementos de A es {np.mean(A)}")
print(f"El máximo del arreglo es {np.max(A)}")
print(f"El máximo del arreglo se alcanza en el índice {np.argmax(A)}")
print(f"El mínimo del arreglo es {np.min(A)}")
print(f"El máximo del arreglo se alcanza en el mínimo {np.argmin(A)}")

**Las operaciones se están haciendo sobre la matriz aplanada.** Si queremos que se por renglones o filas, hacemos:

In [None]:
print(A)

In [None]:
print(f"La suma de todos los elementos de A, por columna, es {np.sum(A,axis=0)}") # Desaparecemos el axis=0 (filas)
print(f"La suma de todos los elementos de A, por fila, es {np.sum(A,axis=1)}\n") # Desaparecemos el axis=1 (columnas)
print(f"El promedio de todos los elementos de A, por columna, es {np.mean(A,axis=0)}")
print(f"El promedio de todos los elementos de A, por fila, es {np.mean(A,axis=1)}\n")
print(f"El máximo del arreglo, por columna, es {np.max(A,axis=0)}")
print(f"El máximo del arreglo, por fila, es {np.max(A,axis=1)}\n")
print(f"El máximo del arreglo, por columna, se alcanza en los índices {np.argmax(A,axis=0)} de las filas")
print(f"El máximo del arreglo, por fila, se alcanza en los índices {np.argmax(A,axis=1)} de las columnas\n")

# Ejercicio: Calcular errores

Defina una función para calcular el error absoluto y relativo entre un valor real y una aproximación a este valor

In [None]:
import numpy as np

def error_absoluto(real, aproximacion):
    # código
    return

def error_relativo(real, aproximacion):
    # código
    return

Como ejemplo, consideremos el siguiente valor real y una secuencia de aproximaciones a dicho valor real

In [None]:
valor_real = 4.5

aproximaciones = [2.5, 2.7, 3.1, 3.6, 3.9, 4.2, 4.6, 4.55]

Usando un ciclo `for` calculamos e imprimimos el error absoluto entre cada valor de la secuencia y el valor real

In [None]:
for aprox in aproximaciones:
    print(f"Error absoluto: {error_absoluto(valor_real,aprox)}")
    # print(f"Error absoluto: {round(error_absoluto(valor_real,aprox),3)}")

Usando numpy podemos simplificar el proceso anterior y hacerlo más rápido. Esta es una de muchas ventajas de Numpy.

In [None]:
aproximaciones = np.array(aproximaciones)

error_absoluto(valor_real, aproximaciones)

# Ejercicio: Regresión Lineal

Implemente una función que realice la regresión lineal de un conjunto de datos, usando una implementación clásica, con ciclos.

La función regresará la pendiente y la ordenada al origen de la recta que mejor aproxima (por mínimos cuadrados) a los datos. Estos dos números están determinados por

$$m=\frac{n\sum x_iy_i-\sum x_i \sum y_i}{n\sum x_i^2-(\sum x_i)^2}$$

$$b=\overline{y} - m \overline{x}$$

donde $\overline{y}$, $\overline{x}$ son los promedios de las coordenadas $y_i,x_i$ respectivamente. Los datos están dados por

$$
\begin{array}{cc}
x_1 & y_1 \\
x_2 & y_2 \\
\vdots & \vdots \\
x_n & y_n
\end{array}
$$

1. Usando ciclos

In [None]:
def regresion_lineal(datos, report=False):
    # código
    return (a_0,a_1)

**Ejemplo:** Usando vectorización de Numpy

In [None]:
import numpy as np

def regresion_lineal_vectorizada(datos, report=False):
    n = datos.shape[0]
    x_prom = np.mean(datos,axis=0)[0]
    y_prom = np.mean(datos,axis=0)[1]
    sum_xy = np.sum(datos[:,0]*datos[:,1])
    sum_x_2s = np.sum(datos[:,0]*datos[:,0])
    sum_x = np.sum(datos[:,0])
    sum_y = np.sum(datos[:,1])
    if report:
        print(f"x_prom = {x_prom},\ny_prom = {y_prom},\nsum_xy = {sum_xy},\nsum_x_2s = {sum_x_2s},\nsum_x = {sum_x},\nsum_y = {sum_y}")
    a_1 = (n*sum_xy - sum_x*sum_y)/(n*sum_x_2s - sum_x**2)
    a_0 = y_prom - a_1*x_prom
    print(f"Pendiente: {a_1}, Intercepto: {a_0}")
    return (a_0,a_1)

**Prueba:**

In [None]:
datos = np.array([[0,2,4,6,9,11,12,15,17,19],[5,6,7,6,9,8,7,10,12,12]]).transpose()
print(datos)

In [None]:
#regresion_lineal(datos)

In [None]:
regresion_lineal_vectorizada(datos)

Podríamos graficar estas rectas y datos, esto lo haremos en la siguiente sesión

## Regresión Lineal con scikit-learn

Hay varias implementaciones de regresión lineal usando Python. Usaremos la de scikit learn, que es el módulo estandar para aprendizaje automático.

In [None]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(datos[:,0].reshape(-1,1),datos[:,1])

In [None]:
lr.intercept_, lr.coef_

Podemos calcular el coeficiente de determinación $r^2$

In [None]:
lr.score(datos[:,0].reshape(-1,1),datos[:,1])

### Opcional: Acerca del menor consumo de memoria de numpy vs listas:

In [None]:
import sys

valores = [3,2,-3,5.5]
arreglo = np.array(valores)

sys.getsizeof(valores), sys.getsizeof(arreglo)

In [None]:
import numpy as np
import sys

N = int(1e7)

narray = np.zeros(N)
mylist = []

for i in range(N):
    mylist.append(narray[i])

print("size of np.array:", sys.getsizeof(narray))
print("size of list    :", sys.getsizeof(mylist))