**Nota:** recuerda seleccionar el entorno virtual adecuado como kernel previo a ejecutar el notebook (requiere instalar `ipykernel` en el entorno virtual para para poder utilizalo como kernel).

**NumPy y listas en Python**

## Listas en Python

### Crear una lista

In [6]:
l = [1, 2, 3, 45] 
l

[1, 2, 3, 45]

In [7]:
type(l), l[0], l[-1], len(l), sum(l)

(list, 1, 45, 4, 51)

Las listas pueden tener elementos de múltiples tipos

In [8]:
l2 = [1, "a", "0"]

Maneras de indexar una lista

In [9]:
l2[0], l2[:], l2[-1]

(1, [1, 'a', '0'], '0')

Dado que los elementos de `l2` son de diferentes tipos, no podemos sumarlos con `sum(l2)`.

In [10]:
sum(l2)

TypeError: unsupported operand type(s) for +: 'int' and 'str'

No obstante, pese a no ser recomendable, es posible usar `sum` con listas de números de diferentes tipos.

In [11]:
l3 = [1, 2.5, 3j]
for e in l3:
    print(f"Element {e} is of type {type(e)}")
sum(l3)


Element 1 is of type <class 'int'>
Element 2.5 is of type <class 'float'>
Element 3j is of type <class 'complex'>


(3.5+3j)

Al multiplicar una lista por un número, se crea una nueva lista con los elementos del original repetidos (concatenados) el número de veces indicado.

In [12]:
[0] * 5

[0, 0, 0, 0, 0]

In [13]:
[1, 2, 3] * 4

[1, 2, 3, 1, 2, 3, 1, 2, 3, 1, 2, 3]

Nota: los elementos de las listas repetidas son _copias superficiales_ (no materializadas) de los elementos de la lista original.

Esto significa que si modificamos un elemento de la lista original, el cambio se verá reflejado en todas las listas repetidas.

In [14]:
ll = [[]] * 3  # list with three empty lists
ll

[[], [], []]

In [15]:
ll[0].append(42)  # we append 42 to the first list
ll[0]

[42]

In [16]:
ll  # the element has been added to every list! it's actually THE SAME list

[[42], [42], [42]]

### Iteración sobre listas

In [17]:
print(l)

for e in l:
    print(e**2)

[1, 2, 3, 45]
1
4
9
2025


In [18]:
for i, e in enumerate(l):
    print(i, e**2)

0 1
1 4
2 9
3 2025


Recordamos las _list comprehensions_.

In [19]:
l3 = [i**2 for i in range(10)]
l3

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

### Indexado de listas

Elementos desde el índice 2 (incluido) hasta el final (incluido).

In [20]:
l3[2:]

[4, 9, 16, 25, 36, 49, 64, 81]

Elementos desde índices 2 (incluido) hasta 3 (excluido)
Dado que `l[i:j]` siempre devuelve una lista, recibimos una lista de un solo elemento, no solo el valor `l3[2]`.

In [21]:
l3[2:3]

[4]

Podemos indexar desde el final de la lista usando índices negativos.
En este caso, indexamos todos los elementos de la lista excepto el último.

In [22]:
l3[:-1]

[0, 1, 4, 9, 16, 25, 36, 49, 64]

Es recomendable omitir los índices redundantes como en el ejemplo de abajo donde queremos tomar todos los elementos con índices menores que 4.

In [23]:
l3[0:4] == l3[:4]

True

El indexado también permite tomar cada n-ésimo elemento y revertir la lista.

In [24]:
l3[::2]

[0, 4, 16, 36, 64]

In [25]:
l3[3:8:2]  # From element 3 to 8, every 2 elements. Indices 3, 5, 7

[9, 25, 49]

In [26]:
l3[::-1]  # All elements, every -1 element - reversing the list

[81, 64, 49, 36, 25, 16, 9, 4, 1, 0]

## Numpy

Tras este breve recordatorio de las listas en Python, podemos pasar a Numpy.

La estructura básica en Numpy es `np.ndarray` (array n-dimensional).
Podemos pensar en `np.ndarray` como en una lista/array.
Para $n=1$ será un vector, para $n = 2$ será una matriz.

En general, podemos llamarlo tensor, pero los llamaremos _arrays_, dado que es un término más familiar.

### Primeros pasos

[Tutorial creación de ndarrays.](https://numpy.org/doc/stable/user/basics.creation.html)
Busquemos símiles entre listas y `np.ndarray`.


In [27]:
import numpy as np

In [28]:
x = np.array([1, 2, 3])  # crear ndarray a partir de una lista
x

array([1, 2, 3])

In [29]:
x[0], x[-1], len(x)

(1, 3, 3)

In [30]:
x[1:]

array([2, 3])

In [31]:
x[2:]

array([3])

In [32]:
x[::-1]

array([3, 2, 1])

In [33]:
3 in x

True

### Propiedades

Algunas propiedades útiles de los `np.ndarray`:

In [34]:
x.dtype, x.ndim  # data type and number of dimensions

(dtype('int64'), 1)

In [35]:
# number of elements in every dimension
# note that it's a single element tuple
x.shape

(3,)

### Multidimensionalidad

Creemos un array multidimensional utilizando [reshape](https://numpy.org/doc/stable/reference/generated/numpy.reshape.html).

In [36]:
lr = list(range(12))
a = np.array(lr)
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

Especificamos la forma requerida como una tupla.

In [37]:
a2 = a.reshape((3, 4))
a2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

Llamar a `reshape` no cambia `a` dado que devuelve una copia.

In [38]:
a

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11])

In [39]:
a2[0, :]  # the first row

array([0, 1, 2, 3])

In [40]:
a2[:, 0]  # the first column

array([0, 4, 8])

In [41]:
a2[2, 3]  # an element from 3rd row and 4th column

11

In [42]:
a2[:, ::2]  # all rows and every second column

array([[ 0,  2],
       [ 4,  6],
       [ 8, 10]])

In [43]:
a2[:, 1::2]  # all rows and every second column starting from the one with index 1

array([[ 1,  3],
       [ 5,  7],
       [ 9, 11]])

### Formas típicas de crear arrays

En la práctica, rara vez creamos `np.ndarray` a partir de la lista de Python, ya que primero tendríamos que crear la lista solo para convertirla inmediatamente en `np.ndarray`.

Estas son las formas típicas de crear un array.

In [44]:
np.zeros((2, 4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [45]:
np.ones((2, 3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [46]:
np.arange(10)  # note that the last number is smaller than 10

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [47]:
np.arange(10).reshape((2, 5))

array([[0, 1, 2, 3, 4],
       [5, 6, 7, 8, 9]])

In [48]:
np.arange(2, 10, 3)  # from, to, every

array([2, 5, 8])

In [49]:
np.linspace(0, 5)  # in linspace, the last number is included as well

array([0.        , 0.10204082, 0.20408163, 0.30612245, 0.40816327,
       0.51020408, 0.6122449 , 0.71428571, 0.81632653, 0.91836735,
       1.02040816, 1.12244898, 1.2244898 , 1.32653061, 1.42857143,
       1.53061224, 1.63265306, 1.73469388, 1.83673469, 1.93877551,
       2.04081633, 2.14285714, 2.24489796, 2.34693878, 2.44897959,
       2.55102041, 2.65306122, 2.75510204, 2.85714286, 2.95918367,
       3.06122449, 3.16326531, 3.26530612, 3.36734694, 3.46938776,
       3.57142857, 3.67346939, 3.7755102 , 3.87755102, 3.97959184,
       4.08163265, 4.18367347, 4.28571429, 4.3877551 , 4.48979592,
       4.59183673, 4.69387755, 4.79591837, 4.89795918, 5.        ])

In [50]:
np.linspace(0, 5, 5)

array([0.  , 1.25, 2.5 , 3.75, 5.  ])

In [51]:
np.array([1, 2, 3]).repeat(3)

array([1, 1, 1, 2, 2, 2, 3, 3, 3])

In [52]:
np.tile(np.array([1, 2, 3]), 3)

array([1, 2, 3, 1, 2, 3, 1, 2, 3])

In [53]:
np.random.rand(10)  # 10 random numbers from [0, 1)

array([0.47641435, 0.76339028, 0.72736107, 0.45469186, 0.28676754,
       0.36927173, 0.33155506, 0.5460827 , 0.12088094, 0.12124617])

### Tipos de los elementos de un array

Pese a que no lo hemos comentado explícitamente, podemos ver que cada elemento de `np.ndarray` es del mismo tipo.
Debido a esto, cada elemento tiene un tamaño constante y permite un uso eficiente de la memoria.
Si realmente queremos, podemos hacer un `nd.array` de tipo de datos `object`. De esta manera, cada elemento de una lista se trata como en la lista de python, manteniendo una referencia.
Esto generalmente es una mala idea, ya que trabajar en una matriz de este tipo será muy ineficiente.

A continuación veremos algunos ejemplos de cómo cambiar el tipo de datos de una matriz.
Por defecto, `dtype` es `int` o `float`.
El punto después del número siempre significa que es un número de posición flotante (no un entero).

[Documentación de dtype](https://numpy.org/doc/stable/user/basics.types.html)

In [54]:
(np.zeros(3), 
np.zeros(3, dtype=int), 
np.zeros(3, dtype=bool), 
np.zeros(3, dtype=np.uint16), 
np.zeros(3, dtype=complex))

(array([0., 0., 0.]),
 array([0, 0, 0]),
 array([False, False, False]),
 array([0, 0, 0], dtype=uint16),
 array([0.+0.j, 0.+0.j, 0.+0.j]))

In [55]:
x = np.zeros(3)
x[0] = 12
x[2] = -1
x.astype(np.float16)

array([12.,  0., -1.], dtype=float16)

Nuevamente, el cambio de tipo de datos no modifica la matriz original.

In [56]:
x

array([12.,  0., -1.])

Cuidado, podemos [perder precisión](https://en.wikipedia.org/wiki/Integer_overflow) al cambiar el tipo de datos.

In [57]:
x.astype(np.uint8)

array([ 12,   0, 255], dtype=uint8)

In [58]:
x = np.array([1e100])
x, x.astype(np.float16)

  x, x.astype(np.float16)


(array([1.e+100]), array([inf], dtype=float16))

In [59]:
np.array(["ala", 2, int])

array(['ala', 2, <class 'int'>], dtype=object)

### Pseudonúmeros especiales

Es bueno saber que el tipo de datos `np.ndarray` tiene algunos valores especiales.
Por ejemplo, `np.inf` es un número especial que es mayor que cualquier otro número.
`np.nan` es un número especial que _no es un número_.
En general, es parte del estándar IEEE 754 que describe la forma en que los números flotantes deben funcionar en cada máquina, en cada lenguaje de programación.

In [60]:
a = np.inf
a, a*5, a-4, a*0, -a, a+2, a-a

(inf, inf, inf, nan, -inf, inf, nan)

In [61]:
-0.0

-0.0

In [62]:
0.0

0.0

In [63]:
type(np.inf)

float

In [64]:
type(np.nan)

float

**Nota:** `np.nan` no es un `np.nan`
Esto se debe a que `np.nan` no es un número, y por lo tanto no es comparable con nada, ni siquiera con otro `np.nan`.

In [65]:
np.nan == np.nan, np.nan != np.nan, np.nan < np.nan, np.nan >= np.nan

(False, True, False, False)

In [66]:
np.isnan(np.r_[np.nan, 1, 2])

array([ True, False, False])

### Arrays con strings

En el ejemplo siguiente, ten en cuenta que `dtype='<U4'`. Describe todas las cadenas de longitud como máximo 4.
Esto significa que cada elemento de esta matriz tendrá como máximo 4 caracteres, por lo tanto, un tamaño constante.
En general, es un comportamiento deseado, ya que es más fácil computar elementos de tamaño constante, pero si tuviéramos una matriz de cadenas de longitud 2-5, con solo una de 10000 caracteres, ¡el tamaño de la matriz explotará!

In [67]:
vala = np.array(["Ala", "ma", "kota"])
vala

array(['Ala', 'ma', 'kota'], dtype='<U4')

In [68]:
# Now we create two arrays, they are equal on all but the final index
vala1 = np.array(["Ala", "ma", "kota"] * 100)
vala2 = np.array(["Ala", "ma", "kota"] * 99 + ["Ala", "ma", "kotaaaaaaaaaaaaaaaaaaaaaaaaaaaaa"])
np.array_equal(vala1[:-1], vala2[:-1]), vala1[-1] == vala2[-1]

(True, False)

Tamaño de un elemento y de toda la matriz:

In [69]:
vala1.itemsize, vala1.itemsize * vala1.size

(16, 4800)

In [70]:
vala2.itemsize, vala2.itemsize * vala2.size

(128, 38400)

In [71]:
38400 / 4800

8.0

El segundo array ocupa 8 veces más espacio, a pesar de ser diferentes en un único elemento.

### Operaciones con arrays

Sabemos cómo crear e indexar arrays, pero ¿cómo operar con ellos?

Lo que diferencia a los arrays de las listas son las operaciones **vectorizadas**.
Esto significa que podemos (y debemos) olvidarnos de escribir bucles `for` y trabajar con el array como una sola entidad.


In [72]:
x = np.arange(4)
x

array([0, 1, 2, 3])

In [73]:
x * 2

array([0, 2, 4, 6])

In [74]:
x ** 2

array([0, 1, 4, 9])

In [75]:
np.sin(x)

array([0.        , 0.84147098, 0.90929743, 0.14112001])

Es importante (desde el punto de vista del rendimiento) que todos los `np.ndarray` se materializan como arrays en C.
Escribir `y = x * 2` significa aproximadamente ejecutar el siguiente código en C y luego devolver el resultado a python.

```c
int* fun(int* x, int n) {
    int *y = new int[n];
    for (int i=0; i<n; i++)
        y[i] = x[i] * 2;
    return y;
}
```

La diferencia es que `numpy` nos ofrece una interfaz mucho más conveniente.

![](images/cpp_numpy.jpg)

![](images/behind_scenes.webp)

In [76]:
y = np.array([4, 1, 2, 1])
x, y

(array([0, 1, 2, 3]), array([4, 1, 2, 1]))

Operaciones elemento a elemento:

In [77]:
x*y, x/y, x+y, x-y

(array([0, 1, 4, 3]),
 array([0., 1., 1., 3.]),
 array([4, 2, 4, 4]),
 array([-4,  0,  0,  2]))

In [78]:
x % 2  # remainder from division by 2

array([0, 1, 0, 1])

Tarea similar:

> Dados dos vectores `x` e `y`, encuentra el máximo del cuadrado del seno de la multiplicación de sus elementos (elemento por elemento).

Podemos resolverlo de dos maneras:

In [79]:
z1 = x * y  # multiplication element by element
z2 = np.sin(z1)  # sine
z3 = z2 ** 2  # it's square
z4 = np.max(z3)  # maximum of an array
z4

0.7080734182735712

Alternativamente, podemos resolverlo de la siguiente manera, en una sola línea:

In [80]:
(np.sin(x * y) ** 2).max()

0.7080734182735712

### Operaciones lógicas

De nuevo, vectorizadas.

In [81]:
x, x > 1

(array([0, 1, 2, 3]), array([False, False,  True,  True]))

In [82]:
x != 1

array([ True, False,  True,  True])

In [83]:
x == 3

array([False, False, False,  True])

In [84]:
xb1 = np.array([True, False, False, True, True])
xb1

array([ True, False, False,  True,  True])

In [85]:
~xb1

array([False,  True,  True, False, False])

In [86]:
xb2 = np.array([True, False, True, False, True])
# Logical and
xb1 & xb2

array([ True, False, False, False,  True])

In [87]:
# Logical or
xb1 | xb2

array([ True, False,  True,  True,  True])

Debemos prestar atención cuando mezclamos `!=` / `==` con `&` / `|` !!!
Debemos colocar paréntesis () alrededor de las expresiones `!=` / `==`.

Esto se debe al orden de los operadores de manera similar a como debemos agregar paréntesis para calcular $2 + 2 * 2 == 8$.

In [88]:
x > 1 & x < 3

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [89]:
(x > 1) & (x < 3)

array([False, False,  True, False])

### Operaciones matriciales

Si `x * y` multiplica vectores elemento por elemento, ¿cómo podemos obtener el producto interno / escalar (proyección de un vector en otro), o multiplicar matrices?

¡Podemos hacerlo con el operador `@`!

In [90]:
x, y

(array([0, 1, 2, 3]), array([4, 1, 2, 1]))

Producto interno / escalar:

Ten en cuenta que `numpy` no es realmente estricto cuando se trata de horizontalidad / verticalidad de vectores, como veremos a continuación.
En muchos lenguajes de programación (y matemáticamente), $y$ tiene que ser un vector vertical para que esta operación tenga sentido.

In [91]:
x @ y == (x * y).sum()

True

In [92]:
M1 = np.arange(12).reshape((3, 4))
v1 = np.array([0, 1, 2, 3])

Si _tiene sentido_, `numpy` multiplicará cada fila de la matriz por el otro vector, siempre que tengan formas correctas. [Más información sobre broadcasting](https://numpy.org/doc/stable/user/basics.broadcasting.html)

In [93]:
M1 * v1

array([[ 0,  1,  4,  9],
       [ 0,  5, 12, 21],
       [ 0,  9, 20, 33]])

In [94]:
M1 @ v1

array([14, 38, 62])

In [95]:
v1 @ M1 # wrong shapes

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 4)

In [96]:
M2 = np.arange(9).reshape((3, 3))
v2 = np.array([0, 1, 2])

In [97]:
v2 @ M2

array([15, 18, 21])

Afortunadamente, `numpy` tiene un límite definido antes de que se produzca un error.

In [98]:
v2.reshape((3, 1)) @ M2

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 1)

La operación a continuación no tiene sentido, ya que no podemos multiplicar una matriz con otro elemento de dimensiones incompatibles entre sí.

In [99]:
v2 @ M2 @ v2

60

No obstante, `numpy` devuelve un resultado, pero no es el resultado que esperamos.
Esto puede ser peligroso, ya que no siempre nos damos cuenta de errores como este.

Matemáticamente, deberíamos haber operado $v_2 M_2 v_2^T$.

### Concatenación de arrays

Presentamos algunas formas de concatenar arrays.

In [100]:
x1 = np.array([0, 1, 2])
x2 = np.array([3, 4, 5])
np.hstack([x1, x2])

array([0, 1, 2, 3, 4, 5])

In [101]:
np.vstack([x1, x2])

array([[0, 1, 2],
       [3, 4, 5]])

En machine learning, es útil concatenar arrays (tensores) sobre una dimensión determinada.
A menudo, cuando trabajamos con imágenes, tenemos un solo tensor con múltiples imágenes del **mismo tamaño**.
Entonces podemos pensar en 4 dimensiones `(B, C, H, W)`:

- B -- número de imágenes en el batch, llamado batch size
- C -- número de canales, típicamente 3 en el caso de RGB, 1 para B/N, 4 para imágenes con transparencia. Las imágenes satelitales o médicas pueden tener incluso más canales.
- H -- altura de la imagen
- W -- anchura de la imagen


In [102]:
M1 = np.arange(9).reshape((1, 1, 9, 1))
M2 = np.arange(9, 18).reshape((1, 1, 9, 1))

In [103]:
np.concatenate((M1, M2), axis=0).shape

(2, 1, 9, 1)

In [104]:
np.concatenate((M1, M2), axis=1).shape

(1, 2, 9, 1)

In [105]:
np.concatenate((M1, M2), axis=2).shape

(1, 1, 18, 1)

In [106]:
np.concatenate((M1, M2), axis=3).shape

(1, 1, 9, 2)

### Métodos sobre arrays

Como hemos visto anteriormente, en lugar de escribir `np.max(x)`, escribimos `x.max()` aprovechando la orientación a objetos de Python.
A continuación, vemos algunos de los métodos más comúnmente utilizados.

In [107]:
a2

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11]])

In [108]:
a2.min(), a2.max(), a2.sum()

(0, 11, 66)

In [109]:
xr = np.random.rand(10) 
xr

array([0.27920797, 0.46827083, 0.3212055 , 0.0148775 , 0.05410447,
       0.17880481, 0.30659287, 0.00467958, 0.7166706 , 0.7058283 ])

In [110]:
xr.argmin(), xr.argmax()

(7, 8)

In [111]:
xr.round(2)

array([0.28, 0.47, 0.32, 0.01, 0.05, 0.18, 0.31, 0.  , 0.72, 0.71])

Adicionalmente muchos de esos métodos tienen un parámetro `axis` que permite elegir el eje a lo largo del cual queremos aplicarlos.
En el caso de las matrices podemos elegir si queremos sumar toda la matriz, `axis=None` (el valor por defecto), a lo largo de las columnas `axis=0`, o a lo largo de las filas `axis=1`.

In [112]:
a2.min(axis=0), a2.max(axis=0), a2.sum(axis=0)

(array([0, 1, 2, 3]), array([ 8,  9, 10, 11]), array([12, 15, 18, 21]))

In [113]:
a2.min(axis=1), a2.max(axis=1), a2.sum(axis=1)

(array([0, 4, 8]), array([ 3,  7, 11]), array([ 6, 22, 38]))

### Operaciones sobre arrays de booleanos
Prestemos atención a los siguientes casos:

In [114]:
x = np.random.rand(1000)
y = x > 0.3
y.mean(), y.sum()  # fraction and number of elements above 0.3


(0.723, 723)

### Sobre `sum` y `np.sum`
Al tratar con listas de Python, he usado `sum`, mientras que ahora he usado `np.sum` o `x.sum()`.
¿Cuál es la diferencia? ¡Es enorme!
Hagamos la prueba y comparemos el tiempo de ejecución de las sumas.

In [115]:
n = 1_000_000
np.random.seed(49951108)
x_sum = np.random.rand(n)
sum(x_sum), np.sum(x_sum), x_sum.sum()

(499898.47315079294, 499898.4731508096, 499898.4731508096)

In [116]:
%timeit sum(x_sum)

38.6 ms ± 1.27 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [117]:
%timeit np.sum(x_sum)

177 µs ± 886 ns per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


In [118]:
%timeit x_sum.sum()

177 µs ± 1.17 µs per loop (mean ± std. dev. of 7 runs, 10,000 loops each)


Como podemos ver, `np.sum` es mucho más rápido que `sum`, **>200 veces más rápido** (en la máquina en la que se ejecutó este notebook).
No es una coincidencia.
`sum` funciona con listas de Python, no utiliza la implementación de alto rendimiento de `x` en `C` por debajo.
No hay casi ninguna diferencia entre `np.sum(x)` y `x.sum()`.
Puedes usar el que te resulte más cómodo dependiendo del contexto.

Probemos ahora a escribir la función de suma usando un bucle de Python.

In [119]:
def loop_sum(x):
    c = 0.0
    for e in x:
        c += e
    return c
loop_sum(x_sum)

499898.47315079294

In [120]:
%timeit loop_sum(x_sum)

42.1 ms ± 287 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


Obtenemos el resultado más lento de los tres, pero en el orden de magnitud del caso de `sum`.

### Precisión de los números flotantes
Como veremos a continuación, los números flotantes tienen una precisión limitada, lo cual nos afecta a la hora de operar con ellos.

Generalmente, en informática hablamos comúnmente de `int` - enteros o `float` - números de punto flotante.
La discusión que sigue a continuación aplica a los números `float`.

In [121]:
sum(x_sum) - np.sum(x_sum)

-1.664739102125168e-08

La notación `3.1415e-3` significa el número $3.1415 \cdot 10^{-3}$, es decir, `0.0031415`, es una notación de ingeniería.
Podeos ver claramente que la diferencia anterior no es igual a 0...

Es como si el resultado de $a + b + c$ dependiera de si lo calculamos como $(a + b) + c$ o $a + (b + c)$.

In [122]:
a = 0.1
b = 0.2
c = -0.3
(a + b) + c, a + (b + c)

(5.551115123125783e-17, 2.7755575615628914e-17)

Esto es raro, pero aún más raro es:

In [123]:
a + b + c == a + c + b

False

![](images/rly.gif)

Las variables de tipo `float` se representan en la memoria de manera similar a como escribimos $3.1415 \cdot 10^{-3}$, pero la computadora guarda solo `31415` y `-3`.
Además, la computadora no opera en el sistema decimal como nosotros, sino en binario.
Esto significa que guarda `float` como $S \cdot 2^E$ y guarda el signo del número (más/menos) donde $S$ - significando, $E$ - exponente.

Pensemos ahora en algo ligeramente diferente y consideremos cuánto es $1/3 \cdot 3$.
Pero nos restringiremos a no usar fracciones racionales y operaremos solo en la expansión decimal (escribiendo el número con un punto).
Tenemos $0.33333333 \cdot 3$ (supongamos que hay más *tres* que no caben en nuestra hoja de papel).
Al final recibimos el número $0.99999999 \neq 1$.
La computadora tiene un problema análogo, los números $0.1, 0.2, 0.3$ son problemáticos.
Todo debido al hecho de que opera en binario.

Por esta razón, **nunca** debemos comparar dos números flotantes con `==`.

In [124]:
0.2 + 0.1 == 0.3

False

Para compararlos, podemos usar `np.isclose` o `np.allclose` que comprueba si todos los elementos de la matriz son cercanos entre sí.

In [125]:
np.isclose(0.2 + 0.1, 0.3), np.isclose(sum(x_sum), np.sum(x_sum))

(True, True)

En el caso de matrices / arrays:

In [126]:
np.random.seed(1)
x = np.random.rand(1000)
x2 = (x * x) / x
np.array_equal(x, x2), np.allclose(x, x2)  # the first is equivalent of x == x2

(False, True)

### Indexado – avanzado

Podemos indexar arrays tal como lo hacemos con las listas de Python, pero también podemos hacerlo de otras maneras.
Tamibén podemos indexar arrays con otros arrays de `int`s y `bool`s.

[Documentación de indexado de `np.ndarray`](https://numpy.org/doc/stable/user/basics.indexing.html)

In [127]:
x = np.array([10, 42, 1337, -1])
indexer1 = np.array([False, True, True, False])
indexer2 = np.array([0, 0, 3, 2, 1, 3, 1])

In [128]:
x[indexer1]

array([  42, 1337])

In [129]:
x[indexer2]

array([  10,   10,   -1, 1337,   42,   -1,   42])

Esto nos permite combinar / chaining de múltiples operaciones de una manera muy conveniente.

In [130]:
M = np.random.rand(20).reshape((5, 4))
M

array([[0.32580997, 0.88982734, 0.75170772, 0.7626321 ],
       [0.46947903, 0.2107645 , 0.04147508, 0.3218288 ],
       [0.03711266, 0.69385541, 0.67035003, 0.43047178],
       [0.76778898, 0.53600849, 0.03985993, 0.13479312],
       [0.1934164 , 0.3356638 , 0.05231295, 0.60511678]])

In [131]:
indexer = M > 0.3
indexer

array([[ True,  True,  True,  True],
       [ True, False, False,  True],
       [False,  True,  True,  True],
       [ True,  True, False, False],
       [False,  True, False,  True]])

In [132]:
M[indexer]

array([0.32580997, 0.88982734, 0.75170772, 0.7626321 , 0.46947903,
       0.3218288 , 0.69385541, 0.67035003, 0.43047178, 0.76778898,
       0.53600849, 0.3356638 , 0.60511678])

In [133]:
np.array_equal(M[M>0.3], M[indexer])

True

### Ordenamiento de arrays

Podemos ordenar arrays vía mutación o vía copia.

In [134]:
x = np.random.rand(5)
y = np.sort(x) # copy returned, x not changed
x, y

(array([0.51206103, 0.61746101, 0.43235559, 0.84770047, 0.45405906]),
 array([0.43235559, 0.45405906, 0.51206103, 0.61746101, 0.84770047]))

Orden descendente

In [135]:
np.sort(x)[::-1]

array([0.84770047, 0.61746101, 0.51206103, 0.45405906, 0.43235559])

In [136]:
z = x.sort()  # Sorts x in place and returns None
print(z)

None


In [137]:
x

array([0.43235559, 0.45405906, 0.51206103, 0.61746101, 0.84770047])

### `ifelse` vectorizado

`np.where` es una función comúnmente usada, que vale la pena memorizar.
El segundo argumento puede ser un único elemento o un array.

In [138]:
x = np.arange(10)
np.where(x > 5, "Large", "Small")

array(['Small', 'Small', 'Small', 'Small', 'Small', 'Small', 'Large',
       'Large', 'Large', 'Large'], dtype='<U5')

In [139]:
labels = [f"l_{i}" for i in range(10)]
labels

['l_0', 'l_1', 'l_2', 'l_3', 'l_4', 'l_5', 'l_6', 'l_7', 'l_8', 'l_9']

In [140]:
np.where(x > 5, labels, "Small")

array(['Small', 'Small', 'Small', 'Small', 'Small', 'Small', 'l_6', 'l_7',
       'l_8', 'l_9'], dtype='<U5')

In [141]:
np.where(x > 5, np.where(x>7, "Extra large", "Large"), "Small")

array(['Small', 'Small', 'Small', 'Small', 'Small', 'Small', 'Large',
       'Large', 'Extra large', 'Extra large'], dtype='<U11')