# 03: Tecnicalidades de *NumPy*

<table style="margin:0; max-width: 1000px;">
    <tbody>
        <tr>
            <td>
                <a href="https://thatcsharpguy.com">
                    <img src="assets/general/Sharp@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitter.com/io_exception">
                    <img src="assets/general/Twitter@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://tcsg.dev/discord">
                    <img src="assets/general/Discord@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://github.com/thatcsharpguy/df">
                    <img src="assets/general/GitHub@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://youtube.com/thatcsharpguy">
                    <img src="assets/general/YouTube@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://youtu.be/YwHQC4KEtBE">
                    <img src="assets/general/EnVivo@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitch.tv/thatcsharpguy">
                    <img src="assets/general/Twitch@1x.png" />
                </a>
            </td>
        </tr>
    </tbody>
</table>

## Paquetes  

 - `numpy`


In [None]:
import numpy as np

from df.number_internals import show_float
from df.array_internals import show_array_details

Recordando la semana pasada, los arreglos:

 - Tienen un tama√±o pre-determinado
 - Tienen que ser *"rectangulares"*
 - Todos los elementos tienen el mismo tipo
 - Los elementos son n√∫meros

A partir de este punto, vamos a conocer sobre:

 - **Representaci√≥n de arreglos en memoria**
 - **Representaci√≥n de n√∫meros en memoria**  

## Arreglos en memoria  

Los arreglos en *NumPy* implementados de forma compacta en memoria; la informaci√≥n num√©rica est√° almacenada de forma contigua (un n√∫mero despues del otro) con un peque√±o encabezado que describe c√≥mo es que el arreglo debe ser manipulado.

No importa si estamos hablando de un arreglo unidimensional o de un tensor de 6 dimensiones, los arreglos en *NumPy* son planos, un n√∫mero despu√©s del otro con un poco de informaci√≥n extra al inicio:

<img src="assets/03/flat_2d@1x.png" />

### Zancadas o *strides*  

El *truco* detr√°s de la implementaci√≥n de los arreglos es el uso de algo llamado *zancada (!???!)* o <b><i>stride</i></b> en ingl√©s. Estas *strides* especifican c√≥mo es que se debe indexar el arreglo. Hay un *stride* por cada dimensi√≥n.

Se llama zancada porque se usa para especificar qu√© tan grande es el *"paso" en bytes* que se debe dar para acceder a cada uno de los elementos; y este es el truco que le permite a *NumPy* mantener el arreglo como una sola secuencia plana de n√∫meros:

<img src="assets/03/flat_with_strides@1x.png" />

Es m√°s claro cuando vemos este concepto aplicado a un arreglo de dos dimensiones, para calcular la ubicaci√≥n en memoria de el elemento en la posici√≥n [$i$, $j$] se puede usar la f√≥rmula:  

<img src="assets/03/2d_with_strides@1x.png" />

$$location = i * stride_0 + j * stride_1$$  

Podemos generalizar esta idea para arreglos de 3, 4 y dem√°s dimensiones.

### Transformaciones r√≠gidas

In [None]:
base = np.zeros((3, 4), dtype=np.float32)
show_array_details(base)

In [None]:
print('Original')
show_array_details(base)

In [None]:
print("Transpuesta")
base_t = base.T
show_array_details(base_t)

In [None]:
flipud = np.flipud(base)
print("Invertida")
show_array_details(flipud)

In [None]:
print("Reflejada")
fliplr = np.fliplr(base)
show_array_details(fliplr)

In [None]:
rotated = np.rot90(base)
print('Girada 90 grados')
show_array_details(rotated)

## Tipos de datos en *NumPy*  

Por default habr√°s visto m√°s arriba, los tipos de dato de *NumPy* son `float64` si creamos arreglos con n√∫meros flotantes e `int32` si estamos creando arreglos con n√∫meros enteros, pero no son los √∫nicos

### Tipos num√©ricos  

#### Enteros  

Los enteros representan n√∫meros sin partes fraccionales; hay de dos tipos: con signo y si  signo. La representaci√≥n de ellos es en forma de una cadena binaria.  

Aqu√≠ una tabla con los detalles sobre algunos de estos n√∫meros:

| Nombre | bytes | M√≠nimo                     | M√°ximo                     |
|--------|-------|----------------------------|----------------------------|
| int8   | 1     | -128                       | 127                        |
| uint8  | 1     | 0                          | 255                        |
| int16  | 2     | -32,768                    | 32,767                     |
| uint16 | 2     | 0                          | 65,535                     |
| int32  | 4     | -2,147,483,648             | 2,147,483,647              |
| uint32 | 4     | 0                          | 4,294,967,295              |
| int64  | 8     | -9,223,372,036,854,775,808 | +9,223,372,036,854,775,807 |
| uint64 | 8     | 0                          | 18,446,744,073,709,551,615 |

##### Desbordamiento  

Si una operaci√≥n se sale de los l√≠mites del n√∫mero entero del tipo de dato ocurre un desbordamiento o *overflow*. En muchos sistemas el n√∫mero simplemente va a reinciar desde el valor m√°s peque√±o: 

In [None]:
int_array  = np.array([100,110,120], dtype=np.int8)
print(int_array)
print(int_array+20) 

In [None]:
uint_array  = np.array([100,110,120], dtype=np.uint8)
print(uint_array)

print(uint_array+20)
print(uint_array+150) 

#### *Floats*  

### IEEE 754  

La forma m√°s com√∫n de representar n√∫meros de punto flotante es el estandar *IEEE 754*, que especifica una forma de representar n√∫meros y representaciones espec√≠ficas para representar n√∫meros "especiales".

Este es un resumen de los tipos definidos:

| Name         | Nombre com√∫n        | Base | Mantissa | Bits del exponente | Sesgo exponente | $E_{min}$ | $E_{max}$ |
|--------------|---------------------|------|----------|--------------------|-----------------|-----------|-----------|
| binary16     | Precisi√≥n media     | 2    | 11       | 5                  | 2^4‚àí1 = 15      | ‚àí14       | +15       |
| **binary32** | Precisi√≥n simple    | 2    | 24       | 8                  | 2^7‚àí1 = 127     | ‚àí126      | +127      |
| **binary64** | Precisi√≥n doble     | 2    | 53       | 11                 | 2^10‚àí1 = 1023   | ‚àí1022     | +1023     |
| binary128    | Precisi√≥n cu√°druple | 2    | 113      | 15                 | 2^14‚àí1 = 16383  | ‚àí16382    | +16383    |
| binary256    | Precision √≥ctuple   | 2    | 237      | 19                 | 2^18‚àí1 = 262143 | ‚àí262142   | +262143   |



#### Simples y dobles 

Remarcadas en la tabla de arriba est√°n las precisiones simple y dobles, puesto que estas son las m√°s comunes en la actualidad. Como te podr√°s imaginar, **float32** ocupa 32 bits (4 bytes) por n√∫mero y **float64** usa 64 bits (8 bytes) por n√∫mero.

Inclusive las GPUs de la actualidad siguen usando **float32** por default, algunas llegan a **float64**, pero la verdadera rapidez proviene de usar el n√∫mero de 32 bits.

Sistemas de precisiones fuera de 32 y 64 bits son raras y muy limitadas; en particular, 128 y 256 son usadas cuando se habla de aplicaciones de escala astron√≥mica: 

 > In addition, the range from the Sun to the pulsar source may exceed ten thousand light years away, so it needs at least quadruple precision (128 bits of floating point representation). Otherwise, the numerical error of computing will result in poor navigation accuracy.In addition, the range from the Sun to the pulsar source may exceed ten thousand light years away, so it needs at least quadruple precision (128 bits of floating point representation). Otherwise, the numerical error of computing will result in poor navigation accuracy. ~ [Autonomous Navigation of Mars Probes by Single X-ray Pulsar Measurement and Optical Data of Viewing Martian Moons](https://www.cambridge.org/core/journals/journal-of-navigation/article/autonomous-navigation-of-mars-probes-by-single-x-ray-pulsar-measurement-and-optical-data-of-viewing-martian-moons/E0C7BEB033776F4211289E7916D7EA52)

 > üö® *NumPy* no soporta n√∫meros de 128 a 256

## Representaci√≥n binaria 

Un *float* se representa binariamente por tres partes, cada una de estas partes es... un entero ü§™. Cada una de estas partes tiene un nombre espec√≠fico:  

 - Signo
 - Mantissa
 - Exponente  

Para reconstruir un n√∫mero flotante a partir de estos tres n√∫meros debemos seguir la siguiente f√≥rmula:  

$$signo \times (1 + mantissa) \times 2^{exponente}$$


### Flotantes

In [None]:
show_float(1.0)  

In [None]:
show_float(-1.0)  

In [None]:
show_float(4.0)  

In [None]:
show_float(1e-8)  

In [None]:
show_float(1.5e200, type_=np.float32)

### Enteros  

Recordemos que para **float64** el tama√±o de la mantissa es de 53 bits, lo cual significa que cualquier entero en los rangos  $-2^{53}$ to $2^{53}$ es representable. N√∫meros fuera de este rango no son representados exactamente.

In [None]:
entero = 2 ** 53 - 1
show_float(1.0 * entero)
print(entero) 

In [None]:
entero = 2 ** 53 + 1
show_float(1.0 * entero)
print(entero) 

In [None]:
entero = 3 ** 55
show_float(1.0 * entero)
print(entero) 

### Errores   

Cuando operamos con n√∫meros flotantes podemos provocar errores **a nivel de hardware**:  

 - **Operaci√≥n inv√°lida**: cuando provocamos una operaci√≥n sin un valor definido: $\frac{0}{0}$, $\sqrt{-1}$
 - **Divisi√≥n entre cero**: ...
 - **Underflow**: cuando el resultado de una operaci√≥n es m√°s peque√±o que el n√∫mero m√°s peque√±o que se puede representar (usualmente el resultado se redondea a cero)
 - **Overflow**: cuando el resultado de una operaci√≥n es m√°s grande que el n√∫mero m√°s grande que se puede representar.
 - **Resultado inexacto**: cuando una operaci√≥n va a generar un resultado inexacto por redondeo  
 
Las excepciones son generadas en el hardware y son escaladas por el sistema operativo y pueden o no ser interceptadas por alguna capa antes de llegar al usuario. Cada sistema (o framework) puede decidir qu√© hacer con ellas: informar al usuario, detener la ejecuci√≥n del programa...

*NumPy* por default intercepta los errores y le informa al usuario a trav√©s de un *warning*:

In [None]:
np.array(0.0) / np.array(0.0) 

In [None]:
np.array(1.0) / np.array(0.0)

In [None]:
np.array(.1) * np.array(1e-307)

In [None]:
np.array(2.0) / np.array(3.0)

## N√∫meros especiales  

### ¬øCero negativo?  

Gracias a la forma en que se pueden representar los n√∫meros bajo el est√°ndar IEEE 754, podemos tener dos ceros.

In [None]:
show_float(-0.0)

In [None]:
show_float(0.0)

### Dos infinitos  

Tambi√©n existe una definici√≥n expl√≠cita para infinito

In [None]:
show_float(np.inf)

In [None]:
show_float(-np.inf)

In [None]:
0*np.inf

### No es un n√∫mero - NaN (*Not A Number*) 

Otro n√∫mero muy especial, usado para representar valores inv√°lidos:  

 - $\frac{0}{0}$
 - $\frac{\infty}{\infty}$
 - $\infty - \infty$ o $-\infty + \infty$
 - $0 \times \infty$
 - $\sqrt(x)$ para toda $x < 0$

In [None]:
show_float(-np.nan) 

 > üö® NaN se propaga, una vez que en un c√°lculo se genera un NaN, cualquier operaci√≥n en la que este se vea involucrado resultar√° en NaN

In [None]:
np.nan * np.inf

## Redondeo y precisi√≥n  

Debido a las limitaciones en tama√±o de bits para representar ciertos n√∫meros los flotantes son propensos a presentar errores de redondeo:

In [None]:
show_float(1.0 + 1e-2)

In [None]:
show_float(1.0 + 1e-4)

In [None]:
show_float(1.0 + 1e-8)

In [None]:
show_float(1.0 + 1e-16, type_=np.float128)

 > üö® **NUNCA** uses n√∫meros flotantes para c√°lculos financieros; un error gracias al redondeo (por m√°s peque√±o que sea) repetido muchas veces puede resultar en un error gigantezco. Python tiene un m√≥dulo llamado `decimal` que es lento, pero seguro.

### Algunas reglas...

El redondeo en n√∫meros flotantes es un problema que para la mayor√≠a de aplicaciones no es tan grande; a√∫n as√≠ existen algunas cosas que podemos hacer para mitigarlo a la hora de escribir c√≥digo:  
 - **Error de magnitud**: evita sumas $x + y$ donde $x$ e $y$ sean de magnitudes diferentes.
 - **Error de magnificaci√≥n**: evita divisiones $\frac{x}{y}$ en donde $y$ sea muy peque√±a.
 - **Error de cancelaci√≥n**: evita restas $x - y$ en donde $x \simeq y$

In [None]:
(1e30 + 1.) - 1e30

In [None]:
(1e30 - 1e30) + 1.

## Comparaciones num√©ricas  

Gracias a estos errores de redondeo, comparaciones directas entre n√∫meros flotantes pueden resultar *"incorrectas"*, y por tanto no es apropiado usarlas:

In [None]:
x = 0.1
y = 50000.0
z = 0.1
x = (x + y) - y

print(x == z)
print(x - z)

La soluci√≥n es usar la diferencia absoluta comparada contra un determinado valor muy peque√±o:

$$|x-z|<\epsilon$$

In [None]:
x = 0.1
y = 50000.0
z = 0.1

epsilon = 1e-8

x = (x + y) - y

print(abs(x - z) < epsilon)

### All close  

*NumPy* al rescate con la funci√≥n: `np.allclose`:

In [None]:
x = 0.1
y = 50000.0
z = 0.1

x = (x + y) - y

print(x, z)
np.allclose(x, z)

In [None]:
x = np.full((3,3), 0.1)
y = np.full((3,3), 500000000.0)
z = np.full((3,3), 0.1)

x = (x + y) - y


print(x) 
print(z)
np.allclose(x, z)

----------

## Referencias

<table style="margin:0; max-width: 1000px;">
    <tbody>
        <tr>
            <td>
                <a href="https://thatcsharpguy.com">
                    <img src="assets/general/Sharp@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitter.com/io_exception">
                    <img src="assets/general/Twitter@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://tcsg.dev/discord">
                    <img src="assets/general/Discord@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://github.com/thatcsharpguy/df">
                    <img src="assets/general/GitHub@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://youtube.com/thatcsharpguy">
                    <img src="assets/general/YouTube@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://youtu.be/YwHQC4KEtBE">
                    <img src="assets/general/EnVivo@1x.png" />
                </a>
            </td>
            <td>
                <a href="https://twitch.tv/thatcsharpguy">
                    <img src="assets/general/Twitch@1x.png" />
                </a>
            </td>
        </tr>
    </tbody>
</table>


### Libros  

 - **Elegant SciPy: The Art of Scientific Python**: [M√©xico](https://amzn.to/3c0ZNZM) &middot; [Espa√±a](https://amzn.to/30WWmge) ¬∑ [US](https://amzn.to/2PbkbhC)  
 - **High Performance Python: Practical Performant Programming for Humans**: [M√©xico](https://amzn.to/310hEtt) &middot; [Espa√±a](https://amzn.to/3cVZsXD) ¬∑ [US](https://amzn.to/3s9eUFW)  


### Sitios web  

 - **What makes Numpy Arrays Fast: Memory and Strides** - [https://www.jessicayung.com/numpy-arrays-memory-and-strides](https://www.jessicayung.com/numpy-arrays-memory-and-strides)  
 - **What Every Computer Scientist Should Know About Floating-Point Arithmetic** - [https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html](https://docs.oracle.com/cd/E19957-01/806-3568/ncg_goldberg.html)
 - **IEEE 754 en Wikipedia** - [https://es.wikipedia.org/wiki/IEEE_754](https://es.wikipedia.org/wiki/IEEE_754)
 - **PEP 754** - [https://www.python.org/dev/peps/pep-0754/](https://www.python.org/dev/peps/pep-0754/)
 - **Machine epsilon en Wikipedia** - [https://en.wikipedia.org/wiki/Machine_epsilon](https://en.wikipedia.org/wiki/Machine_epsilon)