# Clase 3: Manejo de Arreglos Multidimensionales con `Numpy`

**MDS7202: Laboratorio de Programación Científica para Ciencia de Datos**


## Objetivos

- Introducirlos a Numpy y su uso en la ciencia de datos.
- Explorar arreglos multidimensionales y la vectorización de operaciones.


## Motivación


Consideren el siguiente ejemplo:

> **Pregunta ❓:** ¿Cómo le sumamos 1 a cada valor de la lista?


In [None]:
lista = [1, 4, 5, 7]
lista

In [None]:
for i in range(len(lista)):
    lista[i] = lista[i] + 1

lista

In [None]:
[i+1 for i in lista]

> **Pregunta ❓:** ¿Cómo le sumamos 1 a cada valor de la matriz?


In [None]:
matriz = [
    [1, 4, 5, 7],
    [1, 1, 0, 0],
    [7, 7, 2, 5],
]
matriz

In [None]:
for i in range(len(matriz)):
    for j in range(len(matriz[0])):
        matriz[i][j] += 1

In [None]:
matriz

> **Pregunta ❓:** Qué pasa si tenemos una lista de matrices y a cada elemento queremos sumarle 1?


In [None]:
matriz = [
    [
        [1, 4, 5, 7],
        [1, 1, 0, 0],
        [7, 7, 2, 5],
    ],
    [
        [4, 7, 8, 10],
        [4, 4, 3, 3],
        [10, 10, 5, 8],
    ],
]

In [None]:
for i in range(len(matriz)):
    for j in range(len(matriz[0])):
        for k in range(len(matriz[0][0])):
            matriz[i][j][k] += 1

> **Pregunta ❓:** Y podríamos tener algo como `matriz + 1`?


In [None]:
matriz + 1

### Numpy

[NumPy (Numerical Python)](http://www.numpy.org/) es el módulo fundamental para la computación científica en Python. Numpy es un módulo que provee **arreglos multi-dimensionales homogeneos** (i.e., del mismo tipo de datos) y una gran gama de operaciones optimizadas que aplican sobre estos, tales como álgebra lineal, E/S (I/O), estadística básica, simulaciones aleatorias y un gran etc.

Su uso se ha vuelto un estándar en computación científica, en particular en ciencia de datos y machine learning. Su uso es similar a otras herramientas matemáticas como MATLAB, pero esta es **Open Source 👍**.


### Ejemplos de Aplicaciones

<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/numpy_case_studies.jpg" alt="Casos de estudio" style="width: 800px;"/>
</div>


### Ecosistema

<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/numpy_ecosistema.jpg" alt="Ecosistema de Numpy" style="width: 800px;"/>
</div>


### La clase `ndarray`

**Arreglo** (según wikipedia):

> Es a una zona de almacenamiento contiguo (en la memoria RAM) que contiene una serie de elementos del mismo tipo.

<br>

<div align='center'>
<img src='https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/array.png' width=800>
</div>

<div align='center'>
    Fuente: <a href='https://medium.com/@akedalat/how-arrays-allocate-memory-a9bc93c0ad45'> https://medium.com/@akedalat/how-arrays-allocate-memory-a9bc93c0ad45</a>
</div>

<br>

El núcleo de `numpy` es el objeto ndarray. Este objeto encapsula **arreglos n-dimensionales** de **tipos de datos homogeneos** e implementa **rutinas precompiladas** para el calculo de operaciones.

Algunas de las características de estos arreglos.

| Arreglos de tamaño fijo.                                                                                                                                               | Arreglos del mismo tipo de datos.                                                                                                  | Provee operaciones matemáticas sobre largos conjuntos de datos.                                                           |
| ---------------------------------------------------------------------------------------------------------------------------------------------------------------------- | ---------------------------------------------------------------------------------------------------------------------------------- | ------------------------------------------------------------------------------------------------------------------------- |
| A diferencia de las listas de python que pueden crecer dinámicamente, los arreglos de numpy son estáticos. Modificar el tamaño de un arreglo implicará crear uno nuevo | Tipos de datos distintos tienen tamaños distintos. Al tener tipos de datos de igual tamaño, se puede manejar mejor la memoria RAM. | Los módulos precompilados ofrecen operaciones más eficientes sobre arreglos numpy que su equivalente de listas en python. |


---


### Vectorización

La vectorización es la ausencia de cualquier ciclo o indexado explícito en el código. Todo se hace a través de funciones que operan "detrás de escenas".

**Ventajas**

- El código vectorizado es mas conciso y fácil de leer.

- Menos lineas de código = Menos bugs.

- La notación vectorizada "recuerda" en algo a la notación matemática. (Piensen en una suma de dos vectores implementado en for con respecto un `a + b`).


```python
# pseudocódigo que nos permite comparar ambos enfoques: ciclos vs vectorización.

a = [1, 2, 3, 4, ...]
b = [1, 2, 3, 4, ...]

```


```python
# 1.- Ejemplo con ciclos.
c = []
for i in range(len(a)):
    suma = a[i] + b[i]
    c.append(suma)

```


```python
# 2.- Ejemplo vectorizado.
c = a + b
```


### Primeros Pasos


Importamos comunmente `numpy` usando el alias `np`.


In [None]:
!pip install numpy

In [None]:
# alias comun es np
import numpy as np

#### Creación de arrays

Existen varias formas de crear arreglos.


##### Inicializar a partir de listas


In [None]:
a = np.array([1, 2, 3])
a

![Ejemplo ndarray](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/np_array.png)


##### Crear _arrays_ llenos de ceros


In [None]:
b = np.zeros(10)
b

##### Crear _arrays_ de 1


In [None]:
c = np.ones(10)
c

##### Y arreglos con valores aleatorios

Esto genera una matriz en donde cada elemento es un número $ \sim \text{unif}([0,1])$


In [None]:
np.random.rand(5)

##### También podemos crear matrices de forma muy sencilla


In [None]:
e = np.ones((5, 6))
e

Como también a partir de listas


In [None]:
m = np.array(
    [
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9],
        [10, 11, 12],
    ]
)

m


> **Pregunta ❓** : ¿Qué sucederá con el siguiente código?

In [None]:
m2 = np.array(
    [
        [1, 2, 3],
        [4, 5, 6],
        [7,],
    ]
)
m2

> **Pregunta ❓** : ¿Qué sucede con el siguiente código?


In [None]:
np.array(["hola", "chao"])

In [None]:
np.array(
    [
        ["h", "o", "l", "a"],
        ["c", "h", "a", "o"],
    ]
)


### Triángulo 📐

De aquí en adelante definiremos una matriz que contendrá los puntos que conforman un triángulo y estaremos trabajando sobre esta.


In [None]:
import numpy as np

puntos = np.array(
    [
        [0, 0],
        [1, 2],
        [2, 0],
        [0, 0],
    ]
)

puntos

> **Pregunta ❓**: ¿Qué interpretación le podríamos dar a los valores mostrados en el arreglo anterior?


In [None]:
# para instalarlo en colab
!pip install plotly

In [None]:
import plotly.graph_objects as go


def plot_triangulo(puntos):
    fig = go.Figure(go.Scatter(x=puntos[:, 0], y=puntos[:, 1], fill="toself"))
    fig.update_layout(height=500, width=500).show()

In [None]:
plot_triangulo(puntos)

In [None]:
puntos

#### Axes

En `numpy`, las dimensiones son llamadas **_axes_**.

La matriz que vimos antes (`puntos`) es un conjunto de cuatro puntos bidimensionales. Es decir, la matriz puede ser considerada como una lista de puntos, los cuales cuentan con un valor para el eje X y uno para el eje Y.

Notemos que:

- Un punto `[0, 0]` es un arreglo de una sola dimensión (un solo axe).
- Un conjunto de dos puntos `[[0, 0], [1, 2]],` es un arreglo de dos dimensiones (dos axes).

> **Pregunta ❓**: `[[[0, 0], [1, 2]], [[3, 4], [5, 6]], [[7, 8], [9, 10]]]` ¿Cuántos axes tiene?


#### Atributos de la clase ndarray


In [None]:
puntos

##### `ndim`

Podemos acceder al número de dimensiones o axes a través del atributo `ndim`


In [None]:
puntos.ndim

##### `shape`

Shape es una tupla que indica el tamaño de cada dimension. Nota que la tupla tiene la misma cantidad de elementos que el número de dimensiones.

En nuesto ejemplo, la dimensión 1 tiene tamaño 4 (4 puntos) y la segunda dimensión tiene 2 (coordenadas).


In [None]:
puntos.shape

In [None]:
puntos

##### `size`

Es el número de elementos totales en nuestro arreglo. Se calcula como la **multiplicación** de los tamaños de cada dimensión.


In [None]:
puntos.size

##### `dtype`

El tipo de datos que tiene nuestro arreglo


In [None]:
puntos.dtype

#### Datos sobre múltiples dimensiones

Supongamos que el triángulo va creciendo aleatoriamente según pasa el tiempo.

Es decir que tendrémos para cada $t$, un conjunto de cuatro puntos distintos.


In [None]:
puntos = np.array(
    [
        [0, 0],
        [1, 2],
        [2, 0],
        [0, 0],
    ]
)

print(puntos)
plot_triangulo(puntos)

In [None]:
puntos_t1 = np.round(puntos + np.random.uniform(low=-1, high=1, size=(4, 2)), 2)
puntos_t1[-1, :] = puntos_t1[0, :]  # aseguramos que la figura producida termine al incio y sea cerrada.
print(puntos_t1)
plot_triangulo(puntos_t1)

In [None]:
puntos_t2 = np.round(puntos_t1 + np.random.uniform(low=-1, high=1, size=(4, 2)), 2)
puntos_t2[-1, :] = puntos_t2[0, :]  # aseguramos que la figura producida termine al incio y sea cerrada.
print(puntos_t2)
plot_triangulo(puntos_t2)

In [None]:
puntos_t3 = np.round(puntos_t2 + np.random.uniform(low=-1, high=1, size=(4, 2)), 2)
puntos_t3[-1, :] = puntos_t3[0, :]  # aseguramos que la figura producida termine al incio y sea cerrada.
print(puntos_t3)
plot_triangulo(puntos_t3)

In [None]:
puntos_t4 = np.round(puntos_t3 + np.random.uniform(low=-1, high=1, size=(4, 2)), 2)
puntos_t4[-1, :] = puntos_t4[0, :]  # aseguramos que la figura producida termine al incio y sea cerrada.
print(puntos_t4)
plot_triangulo(puntos_t4)

> **Pregunta ❓**: ¿Cómo podemos agregar el tiempo a nuestro conjunto de datos?


La forma de agregar esta variable es agregar una nueva dimensión al arreglo.

Es decir, ahora tener las dimensiones serán: `(tiempo, puntos del tetraedro, valores de X e Y)`


In [None]:
puntos_t = np.array([
    puntos,
    puntos_t1,
    puntos_t2,
    puntos_t3,
    puntos_t4,
])
puntos_t

In [None]:
puntos_t.shape

In [None]:
puntos_t.ndim

Comunmente, los arreglos de más de dos dimensiones son conocidos como **<u>tensores</u>**.


> **Pregunta ❓**: ¿Qué son las imágenes y cómo podemos modelarlas usando un arreglo?


Ejemplo de imagen 8x8 en blanco negro.


In [None]:
imagen = (
    np.array(
        [
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 1, 1, 0, 0, 0, 0, 0, 0, 1, 1, 0, 0, 0],
            [0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0],
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 0, 0, 0, 0, 0, 0],
            [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
        ],
        dtype="uint8",
    )
    * 255
)

In [None]:
import plotly.express as px

px.imshow(imagen, binary_string=True)

Por lo general, las imágenes tienen 3 canales: Rojo Verde y Azul (Red, Green and Blue = **RGB**).


In [None]:
imagen = [
    [[1, 2, 33], [3, 122, 22], [2, 122, 1], ...],
    [[...], [...], [...], ...],
    [[...], [...], [...], ...],
    [[...], [...], [...], ...],
    [[...], [...], [...], ...],
    [[...], [...], [...], ...],
]

> **Pregunta ❓**: ¿Y los videos?



### Indexado

Permite acceder a ciertos valores del arreglo. El indexado es muy similar a las listas de python.

![Indexado](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/np_indexing.png)

<center>Fuente: https://numpy.org/devdocs/user/absolute_beginners.html </center>


**Recordar**: En nuestro ejercicio, `puntos_t` tiene 3 dimensiones: `(tiempo, puntos del tetraedro, valores X e Y)`


In [None]:
puntos_t

### Ejercicios de Indexación


1.- Obtener el primer triángulo, en el tiempo 0.


In [None]:
puntos_t[0]

2.- Obtener el primer y segundo triángulo (tiempos 0 y 1)


In [None]:
puntos_t[:2]

In [None]:
puntos_t[0:2]

3.- Obtener el primer y el tercer triángulo (tiempos 0 y 2)


In [None]:
puntos_t[[0, 2]]

4.- Obtener el primer y segundo vértice del triángulo en el tiempo 0.


In [None]:
puntos_t[0][0:2]

5.- Resumir la operación anterior en un solo indexador


In [None]:
puntos_t[0, 0:2]

6.- Obtener solo los puntos del eje X de todos los triángulos


In [None]:
puntos_t[:, :, 0]

7.- ¿Qué obtenemos en este caso?


In [None]:
puntos_t[:, 0:1, 1] # eje Y del primer punto de todos los triángulos

In [None]:
puntos_t[:, 0:1, 0:2] # eje X e Y del primer punto de todos los triángulos

In [None]:
puntos_t

### Operaciones aritméticas y lógicas


#### Operaciones aritméticas

Las operaciones aritméticas siempre operan elemento a elemento (**elementwise**).


In [None]:
a = np.array([20, 30, 40, 50])
b = np.array([0, 1, 2, 3])

In [None]:
a - b

In [None]:
a + b

In [None]:
b**2

In [None]:
10 * b

##### Operaciones Lógicas


In [None]:
a = np.array([20, 30, 40, 50])
b = np.array([0, 1, 2, 3])

In [None]:
a < b

In [None]:
a <= 20

In [None]:
a > 20

In [None]:
a == 20

In [None]:
condicion1 = a > 20
condicion2 = a == 20

In [None]:
np.logical_and(condicion1, condicion2)  # y lógico

In [None]:
np.logical_or(condicion1, condicion2)  # o lógico

In [None]:
np.logical_not(condicion1)  # not

**Nota:** Para el caso del producto matricial, se ocupa `@`.


<div align='center'>
    <img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/formula_prod_matricial.jpg" alt="Formula prod matricial" style="width: 700px;"/>
</div>


<div align='center'>
<img src="https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/prod_matricial.jpg" alt="Producto Matricial" width=250/>
</div>


In [None]:
A = np.array([[1, 1], [0, 1]])

B = np.array([[2, 0], [3, 4]])

In [None]:
A * B  # elementwise product

In [None]:
A @ B  # producto punto

#### Operaciones sobre los elementos


In [None]:
a

In [None]:
a.sum()

In [None]:
a.min()

In [None]:
a.max()

> **Pregunta ❓**: Para el caso de un arreglo de más de una dimensión, qué retornará max?

In [None]:
a = np.array(
    [
        [10, 2, -3],
        [1, 2, 6],
        [7, -9, 9],
    ]
)

a

In [None]:
a.max()

Se puede especificar el eje sobre el cuál se ejecutará la acción:

In [None]:
a.max(axis=0)

In [None]:
a.max(axis=1)

### Queries

Selección de datos por medio de consultas, en este caso lógicas.


In [None]:
a = np.array(
    [
        [10, 2, -3],
        [1, 2, 6],
        [7, -9, 9],
    ]
)

In [None]:
a > 3

In [None]:
mayor3 = a[a > 3]
mayor3

> **Pregunta ❓**: ¿Qué implicancia podría tener esta funcionalidad a futuro?


### Funciones Universales

Operaciones elemento a elemento aplicadas a arreglos.

Ejemplo:`sen, cos, exp, sqrt, log, etc...`


In [None]:
B = np.arange(0, 10 , 0.5)
B

In [None]:
exp = np.exp(B)
exp

In [None]:
sqrt = np.sqrt(B)
sqrt

In [None]:
sin = np.sin(B)
sin

In [None]:
cos = np.cos(B)
cos

In [None]:
log = np.log(B)
log

In [None]:
fig = go.Figure()
fig.add_trace(go.Scatter(x=B, y=exp, name="exp", mode="lines+markers"))
fig.add_trace(go.Scatter(x=B, y=sqrt, name="sqrt", mode="lines+markers"))
fig.add_trace(go.Scatter(x=B, y=sin, name="sin", mode="lines+markers"))
fig.add_trace(go.Scatter(x=B, y=cos, name="cos", mode="lines+markers"))
fig.add_trace(go.Scatter(x=B, y=log, name="log", mode="lines+markers"))

fig.update_layout(height=600).show()

### Broadcasting

El Broadcasting es como numpy trata las operaciones entre arreglos con diferentes tamaños, como por ejemplo, un escalar por una matriz. A continuación un ejemplo sencillo:


In [None]:
a = np.array([1.0, 2.0, 3.0])
b = np.array([2.0, 2.0, 2.0])

In [None]:
a * b

In [None]:
a * 2

Si bien hicimos la misma operación, estas se diferencian en que en la primera operación hicimos un arreglo del mismo tamaño para multiplicar elemento a elemento y en la segunda ocupamos el escalar directamente.

Ahora imagínense un arreglo de miles de millones de elementos y tener que multiplicarlos por dos de la primera forma. Obviamente la segúnda forma será mas eficiente y esto es lo que numpy implementa eficientemente a través del _broadcasting_.


![Broadcasting en el ejemplo anterior](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/boradcasting_1.gif)


El broadcasting no se limita solo a escalares, si no también que podemos usarlos con arreglos. A continuación, un ejemplo de aquello:


![Broadcasting en el ejemplo anterior](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/boradcasting_2.gif)


En este ejemplo, un caso en donde el broadcasting no funciona, ya que no calzan las dimensiones:


![Broadcasting en el ejemplo anterior](https://raw.githubusercontent.com/MDS7202/MDS7202/main/recursos/2023-01/07-Numpy/boradcasting_3.gif)


> **Pregunta ❓**: ¿Qué habría que hacer aquí para que esta operación funcione?


In [None]:
a = np.ones((4, 3))
a

In [None]:
a * 10

In [None]:
a * [10] # se transforma a np.array(10) y se repite hacia abajo y a la derecha hasta completar la dimensión de a, luego se multiplica

In [None]:
a * [10, 20, 30] # se transforma a np.array([10, 20, 30]) y se repite hacia abajo hasta completar la dimensión de a, luego se multiplica

In [None]:
b = np.ones((1,4)) # 4 "columnas"
b

In [None]:
a + b

In [None]:
b = np.ones((4, 1))
b

In [None]:
a + b # se repite b hacia la derecha hasta completar la dimensión de a, luego se suma

Más información en el siguiente [link](https://numpy.org/doc/stable/user/theory.broadcasting.html#array-broadcasting-in-numpy).


### Vistas y Copias


Recuerden que los nombres son referencias!


In [None]:
a = np.array(
    [
        [0, 1, 2, 3],
        [4, 5, 6, 7],
        [8, 9, 10, 11],
    ]
)

b = a


In [None]:
b[0, 0] = 999
b

> **Pregunta ❓**: ¿Qué sucede con a?


In [None]:
a

**Copy**


In [None]:
a = np.array(
    [
        [0, 1, 2, 3],
        [4, 5, 6, 7],
        [8, 9, 10, 11],
    ]
)

d = a.copy()

In [None]:
d is a

In [None]:
d[0, 0] = 999
d

In [None]:
a

### Como cambiar las dimensiones de un arreglo

#### Reshape

Permite cambiar la forma del arreglo.

In [None]:
a = np.array([[1,2,3], [4,5,6]])
a

In [None]:
a.shape

In [None]:
np.reshape(a, (3, 2))

No siempre es posible, el cambio de los elementos debe ser consistente con las dimensiones.

In [None]:
np.reshape(a, (7,))

Veamos otras formas de cambiar la forma de un arreglo.

Primero definimos un arreglo aleatorio.


In [None]:
c = np.random.rand(2,3)
print(c, "\n")
print(c.shape)

#### Ravel

Se utiliza para "desenrollar" o "aplanar" un arreglo multidimensional en un arreglo unidimensional

In [None]:
d = c.ravel()
print(d, "\n")
print(d.shape, "\n")

#### Transponer un arreglo


`arreglo.T` crea un nuevo arreglo con la transpuesta.

In [None]:
e = c.T
print(e, "\n")
print(e.shape, "\n")

In [None]:
c.reshape(3, 2) # no es lo mismo que hacer reshape!!

#### Resize

Cambia las dimensiones en el propio arreglo, rellenando con el mismo arreglo o 0s dependiendo de la sintaxis hasta llegar a la dimensión requerida. No retorna otro arreglo como en caso de `reshape`.


In [None]:
e = np.array([1, 2, 3])
e

In [None]:
# usando np.resize()
x = np.resize(e, (1,2))
y = np.resize(e, (5, 4))
print('resize a arreglo de menor tamaño:\n', x)
print('resize a arreglo de mayor tamaño:\n', y)

In [None]:
# usando arreglo.resize()
e.resize(4, 4, refcheck = False)
e

In [None]:
e.resize(1, 2, refcheck = False)
e

### Concatenate

Concatena arreglos en un nuevo arreglo

In [None]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])

np.concatenate((a, b))

In [None]:
x = np.array([[1, 2],
              [3, 4]])

y = np.array([[5, 6]])

np.concatenate((x, y))

In [None]:
x = np.array([[1, 2],
              [3, 4]])

z = np.array([[5, 6],
              [7, 8]])

np.concatenate((x, z), axis=0)  # idea: concatenar a las filas

In [None]:
np.concatenate((x, z), axis=1)  # idea: concatenar a las columnas

## Referencias

Recuerden que siempre pueden acudir a la clase grabada de años anteriores:
[Clase 1](https://www.youtube.com/watch?v=bgqOQ2Xrkxs&list=PLIaUi-1jO5b4PztTeatJFQO1QeQwGo3FS&index=7&pp=iAQB) y [Clase 2](https://www.youtube.com/watch?v=tBxejj6L46U&list=PLIaUi-1jO5b4PztTeatJFQO1QeQwGo3FS&index=8&pp=iAQB)