# Clase 6: Numpy 


**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**

**Profesor: Matías Rojas**


---

## NumPy y SciPy: Librerías Científicas 

`Numpy` y `SciPy` son librerías de código abierto en Python que proveen rutinas matemáticas **precompiladas** y de alto rendimiento. 

Ambos paquetes son estándar a la hora de trabajar con operaciones numéricas, siendo `Numpy` la base para el trabajo con vectores y matrices, mientras que `SciPy` extiende dichas rutinas al incorporar algoritmos de análisis numérico, optimización, entre otras cosas.



---

# **Numpy** 

[NumPy (Numerical Python)](http://www.numpy.org/) es la librería fundamental para la computación científica en Python. Numpy implementa los llamados **arreglos multi-dimensionales**, los cuáles nos permiten realizar operaciones sobre vectores y matrices con una gran eficiencia. Para lograr esto, esta librería ejecuta rutinas pre-compiladas en el lenguaje de programación C.

Su uso se ha vuelto un estándar en computación científica, en particular en ciencia de datos y machine learning. Su uso es similar a otras herramientas matemáticas como MATLAB, pero esta es **Open Source 👍**. Si vienes de MATLAB, puedes encontrar una guia rápida de transición a python [aqui](https://numpy.org/devdocs/user/numpy-for-matlab-users.html).

### **Aplicaciones de Numpy**

Primer imagen de un agujero negro: Dentro del pipeline utilizado para la generación de esta imagen, se utilizó un paquete de Python llamado **eht-imaging**, según la documentación entregada por los creadores de este paquete, NumPy fue el nucleo central al momento de procesar los arreglos en el procesamiento de datos.

<img src="https://numpy.org/images/content_images/cs/bh_numpy_role.png" alt="Casos de estudio" style="width: 800px;"/>


El análisis y predicción en el mundo de los deportes ha sido una de las principales aplicaciones del aprendizaje de máquinas, principalmente con el fin de mejorar las tácticas y el rendimiento de los equipos mediante el análisis del rendimiento de los rivales y de ellos mismos. En este contexto, muchos investigadores y compañías utilizas NumPy y otros paquetes de Python para el análisis estadístico, visualización de datos, entre otras aplicaciones.



<img src="https://m.media-amazon.com/images/I/51sFC2M48CL._SL500_.jpg" alt="Casos de estudio" style="width: 300px;"/>

<img src="https://numpy.org/images/content_images/cs/cricket-pitch.png" alt="Casos de estudio" style="width: 800px;"/>




<img src="https://i.ibb.co/54WNxDC/numpy-ecosistema.jpg" alt="Ecosistema de Numpy" style="width: 800px;"/>

## **Arreglos de NumPy v/s Listas de Python**

In [None]:
import time 
import sys
import numpy as np

**Los arreglos de NumPy ocupan menos memoria**

In [None]:
l1 = range(1000)

print(f'Cantidad de bytes utilizado por la lista de python: {sys.getsizeof(5)*len(l1)}')

l2 = np.arange(1000)

print(f'Cantidad de bytes utilizado por el arreglo de NumPy: {l2.size*l2.itemsize}')

**Las operaciones sobre arreglos de NumPy son más rápidas**

In [None]:
n = 1000000

l1 = range(n)
l2 = range(n)

l3 = np.arange(n)
l4 = np.arange(n)

s = time.time()

result = [x+y for x,y in zip(l1,l2)]

print(f'Cantidad de milisegundos que toma la suma de elementos con listas de python: {1000*(time.time()-s)}')

s = time.time()

result = l3 + l4

print(f'Cantidad de milisegundos que toma la suma de elementos con arreglos de NumPy: {1000*(time.time()-s)}')

## **Clase ndarray**

**Arreglo** (según wikipedia): 
> Es una zona de almacenamiento contiguo (en la memoria RAM) que contiene una serie de elementos del mismo tipo.

El núcleo de `numpy` es el objeto ndarray. Este objeto encapsula **arreglos n-dimensionales** de **tipos de datos homogeneos** e implementa **rutinas precompiladas** para el calculo de operaciones. 

Las principales características de estos arreglos son las siguientes:

1. Arreglos de tamaño fijo: A diferencia de las listas de python que pueden crecer dinámicamente, los arreglos de numpy son estáticos. Modificar el tamaño de un arreglo implicará crear uno nuevo.
2. Arreglos del mismo tipo de datos: Tipos de datos distintos tienen tamaños distintos. Al tener tipos de datos de igual tamaño, se puede manejar mejor la memoria RAM.
3. Operaciones matemáticas eficientes: Los módulos precompilados ofrecen operaciones más eficientes sobre arreglos numpy que su equivalente de listas en python. 
4. Gran ecosistema: En general, la mayoría de librerías científicas están basadas en los arreglos de numpy. 

Notar que los array de NumPy no son equivalentes a los de Python de la clase array.array, ya que estos últimos sólo aplican para arreglos unidimensionales.

### **Vectorización**

La vectorización describe la ausencia de cualquier ciclo o indexado explícito en el código. La idea es que todo se hace a través de funciones que operan "detrás de escenas" (en C).

Ventajas:

- El código vectorizado es mas consiso y facil de leer.

- Menos lineas de código = Menos bugs.

- La notación vectorizada "recuerda" en algo a la notación matemática. (Piensen en una suma de dos vectores implementado en for con respecto un `a + b`).


In [None]:
a = [...]
b = [...]
c = [...]

# ejemplo con iteraciones.
for a_i, b_i in zip(a,b):
    c.append(a_i + b_i)
    
# ejemplo vectorizado.
c = a + b

### Primeros Pasos

Importamos comunmente `numpy` usando el alias `np`.

In [None]:
# alias comun es np
import numpy as np

#### Creación de arrays

Existen varias formas de crear arreglos.

##### Inicializar a partir de listas de Python

In [None]:
a = np.array([1, 2, 3])
a

![Ejemplo ndarray](https://i.ibb.co/HB49wrV/np-array.png)

¿Qué pasará con el siguiente código?

In [None]:
ejemplo = np.array([1, 2, '3'])
ejemplo

##### Crear _arrays_ llenos de ceros

In [None]:
b = np.zeros(10)
b

##### Crear _arrays_ de 1

In [None]:
c = np.ones(10)
c

##### Y usar un simil de la función range

In [None]:
d = np.arange(2, 16, 2)  # de 2 al 15 (sin incluir) con un salto de 2 en 2.
d

In [None]:
d = np.linspace(2, 16, 8)  
d

##### Y arreglos con valores aleatorios


Esto genera un vector en donde cada elemento es un número $ \sim \text{unif}([0,1])$

In [None]:
np.random.rand(3)

##### También podemos crear matrices

In [None]:
e = np.ones((5, 6))
e 

In [None]:
m = np.array([[1, 2, 3], 
              [4, 5, 6], 
              [7, 8, 9], 
              [10, 11, 12]])
m

> **Pregunta ❓** : ¿Qué sucede con el siguiente código?

```python
m2 = np.array([[1, 2, 3], [4, 5, 6], [7]])
```

In [None]:
m2 = np.array([[1, 2, 3], 
               [4, 5, 6], 
               [7]])
m2

In [None]:
np.array(['hola', 'chao'])

> **Ejercicio ✏️**: Existen más alternativas para crear arreglos. Verifique las funciones `np.vstack` y `np.hstack` en la siguiente [referencia](https://numpy.org/devdocs/user/absolute_beginners.html#how-to-create-an-array-from-existing-data).

---

De aquí en adelante, definiremos la siguiente matriz como una secuencia de 4 puntos tridimensionales que describen algún objeto tridimensional, como por ejemplo, un tetraedro:

In [None]:
puntos = np.array([
    [0, 0, 0],
    [1, 0, 2],
    [2, 1, 0],
    [0, 2, 1]]
)

puntos

In [None]:
import plotly.graph_objects as go

def plot_tetraedro(puntos):
    fig = go.Figure(data=[go.Mesh3d(
        x=puntos[:, 0],
        y=puntos[:, 1],
        z=puntos[:, 2],
        opacity=0.5,
        # indices de los puntos donde se dibujan caras.
        # i=0, j=1, k=2 indica que se dibujará una
        # cara en [0, 0, 0] -> [1, 0, 2] -> [2, 1, 0]
        i=[0, 0, 0, 1],
        j=[1, 2, 3, 2],
        k=[2, 3, 1, 3],
    )])
    fig.show()
    
plot_tetraedro(puntos)

#### Axes

En `numpy`, las dimensiones son llamadas ***axes***.

Supongamos que la matriz que vimos antes (`puntos`) es un conjunto de cuatro puntos tridimensionales.
- Un punto `[0, 0, 0]` es un arreglo de una sola dimensión (un solo axe).
- Un conjunto de dos puntos `[[0, 0, 0], [1, 0, 2]],` es un arreglo de dos dimensiones (dos axes).

> **Pregunta ❓**: `[[0, 0, 0], [1, 0, 2], [2, 1, 0]],` ¿Cuántos axes tiene?


#### Atributos de la clase ndarray 

In [None]:
puntos

##### `ndim`

Podemos acceder al número de dimensiones o axes a través del atributo `ndim`

In [None]:
puntos.ndim 

##### `shape`

Shape es una tupla que indica el tamaño de cada dimension. Nota que la tupla tiene la misma cantidad de elementos que el número de dimensiones. 

En nuesto ejemplo, la dimensión 1 tiene tamaño 4 (4 puntos) y la segunda dimensión tiene 3 (coordenadas).

In [None]:
puntos.shape

##### `size`

Es el número de elementos totales en nuestro arreglo

In [None]:
puntos.size

##### `dtype`

El tipo de datos que tiene nuestro arreglo

In [None]:
puntos.dtype

##### `itemsize`

El tamaño en bytes de cada elemento que compone al arreglo

In [None]:
puntos.itemsize

#### Datos sobre múltiples dimensiones

Supongamos que el tetraedro va creciendo aleatoriamente según pasa el tiempo.

Es decir que tendrémos para cada $t$, un conjunto de cuatro puntos distintos. 

In [None]:
puntos

In [None]:
puntos_t1 = np.round(puntos + np.random.rand(4,3), 2)
puntos_t1

In [None]:
plot_tetraedro(puntos_t1)

In [None]:
puntos_t2 = np.round(puntos_t1 + np.random.rand(4, 3), 2)
puntos_t2

In [None]:
plot_tetraedro(puntos_t2)

In [None]:
puntos_t3 = np.round(puntos_t2 + np.random.rand(4, 3), 2)
puntos_t3

In [None]:
plot_tetraedro(puntos_t3)

In [None]:
puntos_t4 = np.round(puntos_t3 + np.random.rand(4, 3), 2)
puntos_t4

In [None]:
plot_tetraedro(puntos_t4)

> **Pregunta ❓**: ¿Cómo podemos agregar el tiempo a nuestro conjunto de datos?

La forma de agregar esta variable es agregar una nueva dimensión al arreglo. Es decir, ahora tener las dimensiones `(tiempo, puntos del tetraedro, valores)`

In [None]:
puntos_t = np.array([puntos, puntos_t1, puntos_t2, puntos_t3, puntos_t4])
puntos_t

In [None]:
puntos_t.ndim

In [None]:
puntos_t.shape

Comunmente, los arreglos de más de dos dimensiones son conocidos como **tensores**.

> **Pregunta ❓**: ¿Cómo podemos modelar datos como imágenes y videos en arreglos multidimensionales?

> Propongan algún otro tipo de dato para modelarlo en este momento.


Ejemplo de imagen 8x8 en blanco negro.

In [None]:
imagen = np.array([[0, 0, 0, 0, 0, 0, 0, 0],
                   [0, 0, 0, 0, 0, 0, 0, 0],
                   [0, 0, 0, 1, 1, 0, 0, 0],
                   [0, 0, 1, 0, 0, 1, 0, 0],
                   [0, 0, 0, 0, 0, 0, 0, 0],
                   [0, 0, 0, 0, 0, 0, 1, 0],
                   [0, 0, 0, 0, 0, 0, 1, 1],
                   [0, 0, 0, 0, 0, 0, 0, 0]],
                  dtype='uint8') * 255

In [None]:
import plotly.express as px
px.imshow(imagen, binary_string=True)

Por lo general, las imágenes tienen 3 canales: Rojo Verde y Azul (Red, Green and Blue = **RGB**).

In [None]:
imagen = [[0,0,0  ], [...], [...],
          [0,0,255], [...], [...],
         ]

In [None]:
['Rojo', 'Verde', 'Azul']

Los videos no son más que conjuntos de imágenes más audio. Si consideramos solo las imágenes, tendríamos:

In [None]:
#video = [img1, img2, img3, ...]

# El arreglo tendría las siguientes dimensiones: (tiempo, alto, ancho, canal)

### Indexado


El indexado es similar a las listas de python.

![Indexado](https://i.ibb.co/z5XtRw9/np-indexing.png)
<center>Fuente: https://numpy.org/devdocs/user/absolute_beginners.html </center>

In [None]:
data = np.array([1, 2, 3])
data

In [None]:
# indexador sin slice retorna solo un número
data[1]

In [None]:
# slice retorna arreglo
data[1:2]

In [None]:
# slice retorna arreglo
data[0:2]

In [None]:
# desde el índice 1 hacia adelante
data[1:]

Y multidimensional

In [None]:
puntos_t

In [None]:
# 3 indexadores
# el primero elige solo punto_t1 y punto_t2.
# el segundo elige todos los vértices.
# el tercero elige todas las coordenadas de los vertices.
puntos_t[1:3][:][:]

In [None]:
# La operación anterior podemos resumirla en un solo indexador
puntos_t[1:3, :, :]

Responder que nos entregan los siguientes comandos 

In [None]:
puntos_t

In [None]:
# Podemos obtener de todos los tetraedros solo su primer vértice:
puntos_t[:, 0:2, :]

In [None]:
# Y solo la coordenada z de todos los vértices
puntos_t[:, :, 2:3]

> **Pregunta ❓**: ¿Qué obtenemos en este caso?


In [None]:
puntos_t

In [None]:
puntos_t[0:3, 1:2, 0:1]

> **Pregunta ❓**: ¿Y en este otro?


In [None]:
puntos_t[:, 0:1, 0:2]

### Operaciones básicas sobre arreglos


#### Ordenar y Concatenar

##### `sort`

Retorna una copia del arreglo original ordenado.

In [None]:
arr = np.array([2, 1, 5, 3, 7, 4, 6, 8])

np.sort(arr)

##### `concatenate`

Concatena arreglos (similar a la operación `+`)

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

np.concatenate((a, b))

In [None]:
x = np.array([[1, 2], 
              [3, 4]])

y = np.array([[5, 6], 
              [3,2]])

np.concatenate((x, y))

Se puede especificar la dimensión donde se desea concatenar

In [None]:
x = np.array([[1, 2], 
              [3, 4]])

z = np.array([[5, 6], 
              [7, 8]])

np.concatenate((x, z), axis=0)  # idea: concatenar a las filas

In [None]:
np.concatenate((x, z), axis=1)  # idea: concatenar a las columnas

#### Nota: Cómo leer documentación de python

https://numpy.org/devdocs/reference/generated/numpy.concatenate.html#numpy.concatenate


<img src="https://i.ibb.co/WtYgPPv/doc-1.jpg" alt="Definición de la función" width=600/>
<img src="https://i.ibb.co/8NTNKZW/doc-2.jpg" alt="Definición de la función" width=600/>
<img src="https://i.ibb.co/XbzGS1G/doc-3.jpg" alt="Definición de la función" width=600/>

**Todo esto se encuentra en el docstring de la función!!!**

In [None]:
help(np.concatenate)

#### Operaciones aritméticas y lógicas

Las operaciones aritméticas siempre operan elemento a elemento (**elementwise**).

In [None]:
a = np.array([20, 30, 40, 50])
b = np.array([0, 1, 2, 3])

In [None]:
a - b

In [None]:
a + b

In [None]:
b ** 2

In [None]:
10 * b

In [None]:
a * b

In [None]:
a

In [None]:
a <= 20

In [None]:
a > 20

In [None]:
a < b

In [None]:
a == 20

**Nota:** Para el caso del producto matricial, se ocupa `@`.



<img src="https://i.ibb.co/7SYmXvx/prod-matricial.jpg" alt="Formula prod matricial" style="width: 700px;"/>

In [None]:
A = np.array([[1, 1],
              [0, 1]])

B = np.array([[2, 0],
              [3, 4]])

In [None]:
A * B  # elementwise product

In [None]:
A @ B  # producto punto

In [None]:
A.dot(B)  # another matrix product

#### Operaciones sobre los elementos

In [None]:
np.arange(0, 15, 1)

In [None]:
a = np.arange(0, 15, 1).reshape(3, 5)
a

In [None]:
a = np.arange(0, 15, 1).reshape(-1, 5)
a

In [None]:
a.sum()

In [None]:
a.sum(axis=0)

In [None]:
a.sum(axis=1)

In [None]:
a.min()

In [None]:
a.min(axis=0)

In [None]:
a.max()

In [None]:
a.max(axis=1)

> **Pregunta ❓**: ¿Qué sucede cuando hay más de 2 dimensiones?

In [None]:
puntos_t

In [None]:
# Idea: máximo sobre los vértices y los tetraedros que cambian en el tiempo
# entrega el tetraedro más grande.

m_a0 = puntos_t.max(axis=0, keepdims=True)
print(m_a0.shape)
print(m_a0)

In [None]:
# Idea: máximo sobre el tiempo y sobre las coordenadas en particular
# entrega el conjunto de coordenadas máximas por cada tetraedro
m_a1 = puntos_t.max(axis=1, keepdims=True)
print(m_a1.shape)
print(m_a1)

In [None]:
# Idea: máximo sobre el tiempo y el máximo de cada punto
# entrega la coordenada máxima de cada vértice para todos los tetraedros en el tiempo

m_a2 = puntos_t.max(axis=2, keepdims=True)
print(m_a2.shape)
print(m_a2)

### Funciones Universales

Operaciones elemento a elemento aplicadas a arreglos.

Ejemplo:`sen, cos, exp, sqrt, log, etc...`

In [None]:
B = np.arange(1, 5, 1)
B

In [None]:
np.exp(B)

In [None]:
np.sqrt(B)

In [None]:
np.cos(B)

In [None]:
np.tanh(B)

### Reshape

Usando la función `reshape()` podemos darle un nuevo `shape` sin la necesidad de cambiar los datos.
Lo importante es que el nuevo arreglo tenga la misma cantidad de elemento que la antigua.


In [None]:
a = np.arange(6)
a

In [None]:
b = a.reshape(3, 2)
b

In [None]:
c = a.reshape(1, 3, 2)  # Agregamos un nuevo axis.
c

También podemos agregar nuevos axis usando `np.newaxis`

In [None]:
a = np.array([1, 2, 3, 4, 5, 6])

a.shape

In [None]:
a2 = a[np.newaxis, :]

a2.shape

In [None]:
a2

Y con `expand_dims`.

In [None]:
b = np.expand_dims(a, axis=0)
b.shape

In [None]:
b

In [None]:
c = np.expand_dims(a, axis=1)
c.shape

In [None]:
c

En cuanto a las **funcionalidades básicas de álgebra lineal**, se encuentra la inversa una matriz:

In [None]:
A = np.array([[1, -2, 2, 2], [0, 4, -2, 1], [1, -2, 4, 0], [1, -1, 2, 2]])
A_inv = np.linalg.inv(A)

print("A:\n", A, "\n")
print("Inversa de A:\n", A_inv)

La matriz identidad

In [None]:
# Identidad matricial

I1 = np.matmul(A, A_inv)
I2 = np.eye(4)  # Matriz identidad de dimension 4x4

print("I1:\n", I1, "\n")
print("I2:\n", I2)

### Stacks


Vertical stack: Se posiciona el arreglo de la izquierda por 
sobre el derecho. 



In [None]:
X = np.array([1, 2, 3])
Y = np.ones_like(X)

np.vstack([X, Y])

Usando esto podemos acomodar nuevos valores para, por ejemplo, aplicar regresión lineal.

In [None]:
Z = np.vstack([X,Y])
Z

In [None]:
Z.T

por otra parte `.hstack()`, que opera de manera similar a `.vstack()` pero de manera horizontal.

In [None]:
Z = np.hstack([X,Y])
Z

###  Queries

Selección de datos por medio de consultas, en este caso lógicas.

In [None]:
a = np.array([[1, 2, 3, 4], 
              [5, 6, 7, 8], 
              [9, 10, 11, 12]])

In [None]:
a > 3

In [None]:
mayor3 = a[a > 3]
mayor3

### Vistas y Copias

Recuerden que los nombres son referencias!

In [None]:
a = np.array([[0, 1, 2, 3], 
              [4, 5, 6, 7], 
              [8, 9, 10, 11]])

b = a  
b is a

In [None]:
b[0,0] = 999
a

**View**

View crea un nuevo arreglo con los mismos datos, pero no le pertenecen

In [None]:
a = np.array([[0, 1, 2, 3], 
              [4, 5, 6, 7], 
              [8, 9, 10, 11]])

c = a.view()

c is a        

In [None]:
c.base is a     

In [None]:
c[0,0] = 1234         
a

**Copy**

In [None]:
a = np.array([[0, 1, 2, 3], 
              [4, 5, 6, 7], 
              [8, 9, 10, 11]])

d = a.copy()         

In [None]:
d is a 

In [None]:
d[0,0] = 999
d

In [None]:
a

## **Broadcasting**

El Broadcasting es como numpy trata las operaciones entre arreglos con diferentes tamaños, como por ejemplo, un escalar por una matriz. Supongamos que queremos multiplicar los elementos de un arreglo por dos, tenemos estas opciones:

In [None]:
a = np.array([1.0, 2.0, 3.0])

In [None]:
b = np.array([2.0, 2.0, 2.0])
a * b

In [None]:
a*2

Si bien hicimos la misma operación, estas se diferencian en que en la primera operación hicimos un arreglo del mismo tamaño para multiplicar elemento a elemento y en la segunda ocupamos el escalar directamente. 

Ahora imagínense un arreglo de miles de millones de elementos y tener que multiplicarlos por dos de la primera forma. Obviamente la segúnda forma será mas eficiente y esto es lo que numpy implementa eficientemente a través del *broadcasting*.

![Broadcasting en el ejemplo anterior](https://i.ibb.co/7vhq1Mg/boradcasting-1.gif)

El broadcasting no se limita solo a escalares, si no también que podemos usarlos con arreglos. A continuación, un ejemplo de aquello:

![Broadcasting en el ejemplo anterior](https://i.ibb.co/G7xwWnx/boradcasting-2.gif)

En este ejemplo, un caso en donde el broadcasting no funciona, ya que no calzan las dimensiones:

![Broadcasting en el ejemplo anterior](https://i.ibb.co/52kT9Rq/boradcasting-3.gif)

In [None]:
a = np.ones((4,3))
a

In [None]:
a * 10

In [None]:
a * [10]

In [None]:
a * [10, 20, 30]

In [None]:
a

In [None]:
b = np.ones(4)
b

In [None]:
a+b

In [None]:
b[:, np.newaxis]

In [None]:
# a (4,3), b (4,1)
a+b[:, np.newaxis]

In [None]:
b[:, np.newaxis].shape

Más info el siguiente [link](https://numpy.org/doc/stable/user/basics.broadcasting.html)