<h1 align="center">Física Computacional.</h1>
<h1 align="center">Semestre 2015-1</h1>

<h2>Sergio A. Alcalá Corona </h2> 

---
### Rodrigo Vega Vilchis
### Joel Gómez Uribe
---

<h1 align="center">Programación para la física computacional</h1> 

# 1.2. Error numérico.

---

Ya hemos visto los elementos básicos de la _programación en **`Python`**_: entrada y salida, variables y aritmética, ciclos y sentencias *if*, *while*, etc., con lo que podemos realizar una gran variedad de cálculos. También hemos visto cómo visualizar nuestros resultados utilizando varios tipos de gráficos por computadora. Con lo que tenemos los componentes principales listos para empezar a hacer Física con la computadora, en donde tenemos que considerar el nivel de precisión para nuestros calculos, además de manejar números extremadamente grandes o pequeños, como por ejemplo:

- La constante de Cavendish $\displaystyle{ \; \; G = 6.6743 \times 10^{-11}  \; m^2/Kg^2}$
</br>

- La velocidad de la luz en el vacío $\displaystyle{ \; \; c = 299792458  \; m/s}$
</br>

- La constante de Boltzmann $\displaystyle{ \; \; k_{\rm {B}} = 1.380649 \times 10^{-23} J/K}$
</br>

- El número de Avogadro $\displaystyle{ \; \; N_{\rm {A}} = 6.022140857 \times 10^{23} \; mol^{-1} }$
</br>

- La constante de Planck $\displaystyle{ \; \; h = 6.62607015 \times 10^{-34} \; Js}$
</br>

- La constante de Stefan-Boltzmann $\displaystyle{ \; \; \sigma = 5.670373 \times 10^{-8} \; W / m^2 k^4}$
</br>

- La constante universal de los gases $\displaystyle{ \; \; R = 8.314472 \; J / mol K}$
</br>

- La constante de Rydberg $\displaystyle{ \; \;  R_{\infty } = 1.0973731568539 \times 10^{7} \; m^{-1} }$
</br>

- La carga eléctrica del electrón $\displaystyle{ \; \; e^{-} = -1.602 \times 10^{-19} \; C}$
</br>

- La masa del electrón $\displaystyle{ \; \; m_{e} = 9.1091 \times 10^{-31} \; kg}$
</br>

- La masa de la Tierra $\displaystyle{ \; \; M_{T} = 5.972 \times 10^{24} \; kg}$
</br>

Sin embargo, hay una cuestión fundamental que hay que abordar antes. Las variables de *`Python`* pueden contener números que abarcan una amplia gama de valores, incluidos números muy grandes, pero no pueden contener números que sean arbitrariamente grandes. 

Además, **las computadoras tienen limitaciones**. No pueden almacenar números reales con un número infinito de decimales, hay un límite para los números más grandes y más pequeños que se pueden almacenar. 

Pueden realizar cálculos rápidamente, pero no infinitamente rápido. En muchos casos, estas cuestiones no tienen porque preocuparnos: la computadora es lo suficientemente rápida y precisa para muchos de los cálculos que hacemos en física. Sin embargo, también hay situaciones en las que las limitaciones de la computadora nos afectarán significativamente, por lo que será crucial que comprendamos esas limitaciones, así como los métodos para mitigarlas o solucionarlas cuando sea necesario.

## 1.2.1 Capacidad limitada

En los Notebooks anteriores, hemos visto ejemplos del uso de variables incluidas las enteras, de punto flotante y complejas, así como listas y matrices. Por ejemplo, en el primer Notebook sumamos los elementos de la lista de la siguiente manera:


In [1]:
r = [ 1.0, 1.5, -2.2 ]
total = sum(r)
print(total)

0.2999999999999998


Como puedes notar, el resultado no es lo esperado. Ahora considera lo siguiente:

In [2]:
a = 1.10
b = 2.20
suma = a+b
print(suma)

3.3000000000000003


In [3]:
if suma==3.3:
    print(suma)

Nuevamente, el resultado no es totalmente exacto. **¿Por qué?**

Incluso, si vemos la diferencia entre ambos resultados, tenemos que:

In [4]:
suma-total

3.0000000000000004

Otro caso es el siguiente. Sabemos que el valor real de $\pi$ tiene infinitos decimales, después del punto.
<h4 align="center">$\pi = 3.1415926535897932384626 \ldots$</h4>

Sin embargo:

In [5]:
import math as mt
mt.pi

3.141592653589793

In [6]:
Pi = 3.1415926535897932384626
print(Pi)
print(abs(Pi - mt.pi))

3.141592653589793
0.0


Otro ejemplo:

In [7]:
x = 0.666666666666666
y = 0.666666666666667
x-y

-9.992007221626409e-16

O bien, si queremos escribir un numero muy grande, puede ocurrir lo siguiente:

In [8]:
print(2.**1000000)

OverflowError: (34, 'Numerical result out of range')

In [None]:
# import sys
# sys.set_int_max_str_digits(301030)

In [None]:
num = 10*2**(1025)**2
# num

Ahora, consideremos los siguientes dos números:

$ x = 1 \; $ y $  \; y = 1 + 10^{-14} \sqrt{2}$

Substituyendo $x$, en la segunda ecuación tenemos que:

$ y = x + 10^{-14} \sqrt{2}$

De tal manera que:

$\sqrt{2} = 10^{14}(y - x)$

Calculemos numericamente $\sqrt{2}$ usando lo anterior y comparemos con el valor de $\sqrt{2}$:

In [None]:
from math import sqrt

x = 1.0
y = 1.0 + (1e-14)*sqrt(2)

print((1e14)*(y-x))
print(sqrt(2))

In [None]:
x = 1.0
y = 1.0 + (1e-20)*sqrt(2)

print((1e20)*(y-x))
print(sqrt(2))

Como se puede ver, el cálculo es preciso sólo hasta el primer decimal; después de eso, el resto no sirve.

Los errores grandes en cálculos que implican la resta de números casi iguales surge con cierta frecuencia en física y es quizás la causa más común de error numérico significativo. Por lo que es necesario tenerlo presente este problema en todo momento al escribir programas.

Los errores anteriores, ocurren pues en realidad, las computadoras no pueden contener números que sean arbitrariamente grandes o pequeños; pues están limitadas en la cantidad de memoria que tienen para almacenar números.

Se debe elegir un conjunto finito de "*bits*" para representar nuestros números con valores reales, divididos entre la parte entera del número y la parte fraccionaria del mismo. Esto se conoce como **representación de punto flotante**. 



## 1.2.1 Representación de punto flotante

En general, las computadoras utilizan la **_representación de punto flotante_** para codificar números reales, la cual funciona de manera similar a la notación científica al garantizar que todos los números, independientemente de su tamaño, se representen utilizando el mismo número de cifras significativas.

Para entender este concepto, partamos de algo conocido, que es cómo se escriben números en base 10 y base 2. <br>
Por ejemplo, tomemos el número 2022.51:

$2022.51 = 2 \times 10^3 + 0  \times 10^2 + 2  \times 10^1 + 2  \times 10^0 + 5 \times 10^{-1} + 1 \times 10^{-2}$

Las computadoras digitales, por otro lado, usan la base 2 o representación binaria para la aritmética. Al igual que la base 10, el binario también se escribe usando notación posicional, aunque restringido a solo los dígitos 0 y 1. Por ejemplo, el número binario $10110.12$ se puede convertir a base 10 de la siguiente manera:

$10110.1 = 1 \times 2^4  + 0 \times 2^3 + 1 \times 2^2 + 1 \times 2^1 + 0 \times 2^0 + 1 \times 2^{-1}$

$10110.1_{(2)} =  16 + 4 + 2 + {1 \over 2}$
        
$10110.1_{(2)} = 22.5_{(10)}$

---

También, recordemos un poco cómo es la representación de números muy grandes o pequeños, en lo que conocemos como _**Notación Científica**_.

<img src="img/NotacionCientifica.jpg" style="aling:center" width=250/>

Y tomemos como ejemplo el valor de la _magnitud de la velocidad_ de la luz $c$:

<h5 align="center">
$c \approx 300,000\;km/s$
</h5>

El cual, también podemos escribirlo de la siguiente manera:

$c = 299,792,458\;m/s$

o bien,

$\require{color}$
$c = \color{red}{2.99792458}$
$×10\color{blue}{^{8}}$ $\;m/s$


Tomemos la siguiente representación, en la cual todos los valores relevantes (_mantisa_), quedan a la derecha del punto decimal:

<h3 align="center">
$c = 0.\color{red}{299792458}$
$\times 10\color{blue}{^{9}}$ $\;m/s$
</h3>

Entonces podemos escribir el valor como:

<h4 align="center">
$\displaystyle c = \left(\color{red}{2\times10^{-1} + 9\times10^{-2} + 9\times10^{-3} + 7\times10^{-4} + 9\times10^{-5} + 2\times10^{-6} + 4\times10^{-7} + 5\times10^{-8} + 8\times10^{-9}}\right)$
$\times 10\color{blue}{^{9}}$ $\;m/s$
</h4>

Es decir:

<h3 align="center">
$\displaystyle c =  \left(\color{red}{\sum_{i=1}^9 M_i 10^{-i}} \right)$
$\times 10\color{blue}{^{9}}$ $\;m/s$
</h3>

En general, podemos escribir cualquier número en _notación científica_ base 10 de la siguiente manera:

<h2 align="center">
$\color{green}{\mathbf{\pm}}$ $\displaystyle \left(\color{red}{\sum_{i=1}^E M_i 10^{-i}} \right)$$\times 10\color{blue}{^{E}}$
</h2>

es decir:

<h3 align="center">
$\color{green}{\mathbf{signo}}$ $\displaystyle \left(\color{red}{Mantisa} \right)$$\times 10\color{blue}{^{Exp}}$
</h3>

Y podemos hacer lo mismo para la base 2:

<h3 align="center">
$\color{green}{\mathbf{signo}}$ $\displaystyle \left(\color{red}{Mantisa} \right)$$\times 2\color{blue}{^{Exp}}$
</h3>

---

### Ejercicio:

Representar los siguientes valores (en base 10) en notación cientifica de base 2:

- 13
- -0.8125 
- -5.75 
- 9.2

### Solución:

Comencemos por escribirlos en _binario_:

<h4 align="center">
$\displaystyle 13_{(10)} = 8 + 4 + 1 = \left(\color{red}{\mathbf{1}\cdot2^{3} + \mathbf{1}\cdot2^{2} + \mathbf{0}\cdot2^{1} + \mathbf{1}\cdot2^{0}}\right) = 1010_{(2)}$
</h4>

<br>

<h4 align="center">
$\displaystyle -0.8125_{(10)} = \color{green}{\mathbf{-}}$ $\left(\color{red}{\mathbf{1}\cdot2^{-1} + \mathbf{1}\cdot2^{-2} + \mathbf{0}\cdot2^{-3}} + \mathbf{1}\cdot2^{-4}\right)$ $= -0.1101_{(2)}$
</h4>
<h4 align="center">
$\displaystyle =  \color{green}{\mathbf{-}} \left(\color{red}{\mathbf{1}\cdot\frac{1}{2}+ \mathbf{1}\cdot\frac{1}{2^2} + \mathbf{0}\cdot\frac{1}{2^3} + \mathbf{1}\cdot\frac{1}{2^4}}\right)$
</h4>

<br>

<h4 align="center">
$\displaystyle -5.75_{(10)} = \color{green}{\mathbf{-}}$ $\left(\color{red}{\mathbf{0}\cdot2^{3} + \mathbf{1}\cdot2^{2} + \mathbf{0}\cdot2^{1} + \mathbf{1}\cdot2^{0} + \mathbf{1}\cdot2^{-1} + \mathbf{1}\cdot2^{-2} + \mathbf{0}\cdot2^{-3}} \right)$ $= -0101.1100_{(2)}$
</h4>
<h4 align="center">
$\displaystyle -5.75_{(10)} = -101.11_{(2)}$
</h4>

<br>

<h4 align="center">
$\displaystyle 9.2_{(10)} = 1001.\mathbf{0011}0011\mathbf{0011}0011\ldots_{(2)}$ 
</h4>

<h4 align="center">
$\mathbf{1}\cdot2^{3} + \mathbf{0}\cdot2^{2} + \mathbf{0}\cdot2^{1} + \mathbf{1}\cdot2^{0}+$
</h4>

<h4 align="center">   
$\mathbf{0}\cdot2^{-1} + \mathbf{0}\cdot2^{-2} + \mathbf{1}\cdot2^{-3} + \mathbf{1}\cdot2^{-4} + $
</h4>

<h4 align="center">   
$\mathbf{0}\cdot2^{-5} + \mathbf{0}\cdot2^{-6} + \mathbf{1}\cdot2^{-7} + \mathbf{1}\cdot2^{-8} + $
</h4>

<h4 align="center">   
$\mathbf{0}\cdot2^{-9} + \mathbf{0}\cdot2^{-10} + \mathbf{1}\cdot2^{-11} + \mathbf{1}\cdot2^{-12}$ 
</h4>

<h4 align="center">   
$\mathbf{0}\cdot2^{-13} + \mathbf{0}\cdot2^{-14} + \mathbf{1}\cdot2^{-15} + \mathbf{1}\cdot2^{-16}$ 
</h4>
<h4 align="center">   
$\ldots$ 
</h4>

**Mucha atención** con este último caso. Pues a pesar de que en base 10, el valor tiene una representación fínita, al representarlo en base 2, la parte fraccionaria se vuelve periodica. Por lo que hay que cortar la *mantiza* en algun momento, dado que no se puede tener una representación infinita del valor en la computadora.

Asimiso, podemos darnos cuenta que si tomamos una representación **trunca** de este valor y lo convertimos a base 10 nuevamente, no obtendremos el valor exacto.

<h4 align="center">
$\displaystyle 1001.001100110011_{(2)} = 2^3 + 2^0 + 2^{-3} + 2^{2} + 2^{-4} + 2^{-7} + 2^{-8} + 2^{-11} + 2^{-12} = 9.19995_{(10)}$ 
</h4>

In [1]:
(1/2**3)+(1/2**4)+(1/2**7)+(1/2**8)+(1/2**11)+(1/2**12)+(1/2**15)+(1/2**16)

0.1999969482421875

In [2]:
1/8+1/16+1/128+1/256+1/2048+1/4096+1/32768

0.199981689453125

Finalmente, escribamos lo valores en notación científica, de igual manera que como lo hacemos en base 10, es decir, recorriendo el punto hacia la izquierda y elevando a un exponente igual al número de lugares que recorrimos el punto.

En este caso, **dejaremos sólo un 1 a la izquierda del punto**. Con lo que tenemos que:

<h4 align="center">
$\displaystyle 13_{(10)} = 1101_{(2)} = 1\color{red}{.101_{(2)}}$ $\times 2\color{blue}{^{3}}$
</h4>

<h4 align="center">
$\displaystyle -5.75_{(10)} = -101.11_{(2)} = \color{green}{-}$$1\color{red}{.0111_{(2)}}$ $\times 2\color{blue}{^{2}}$
</h4>

<h4 align="center">
$\displaystyle -0.8125_{(10)} = -0.1101_{(2)} = \color{green}{-}$$1\color{red}{.101_{(2)}}$ $\times 2\color{blue}{^{-1}}$
</h4>

<h4 align="center">
$\displaystyle 9.2_{(10)} = \mathbf{1001.}0011001100110011 \cdots_{(2)} \approx 1\color{red}{.0010011_{(2)}}$ $\times 2\color{blue}{^{3}}$
</h4>

---


Así, de manera general; podemos representar cualquier valor (*número real*), en _**notación cientifica base 2**_, de la siguiente manera:
<h1 align="center">
$\color{green}{(-1)^S}$$\cdot 2\color{blue}{^{E}}$ $\displaystyle \left(1 +\color{red}{\sum_{i=1}^E M_i 2^{-i}} \right)$
</h1>

En donde los valores de $S$, $E$ y cada uno de los $M_i$, se pueden representar de forma binaria, es decir con $0$'s y $1$'s.

## 1.2.2 El estandar IEEE754

La representación matemática anterior, dio paso al _**estándar para la aritmética binaria de punto flotante**_, publicado en 1985 por el _Instituto para Ingenieros Eléctricos y Electrónicos_ (_**IEEE**; Institute for Electrical and Electronic Engineers_), en un réporte llamado *Binary Floating Point Arithmetic Standar 754-1985* y el cual es el más común para la representación de punto flotante. De hecho, este estándar es tan universal que es muy poco probable que encontremos una computadora que no lo use hoy en día.

El número de punto flotante de _precisión simple de **32 bits IEEE754**_ se denomina así debido a que usa 32 bits para implementar este estándar; asignados de la siguiente manera:

- 1 bit para el bit de **signo**
- 8 bits para el **exponente** y 
- 23 bits para la **mantisa**. 

<img src="img/PrecisionSImple_IEEE-754.png" style="aling:center" width=350/>

Al usar 8 dígitos binarios para representar el exponente, se provee un rango de $0$ a $2^8 - 1$ valores, es decir 256 números (de 0 a 255), para exponentes. Sin embargo, usar sólo enteros positivos para esto, no permitiría una representación completa de los números con magnitud pequeña. Para garantizar que estos números sean igualmente representados, se resta 127 a este conjunto de valores, el cual se denomina _"exceso"_ (y se suele representar con la letra $d$, dependiendo de la literatura); para que el rango del exponente este entre -127 a 128, lo que permite tener exponentes negativos, es decir:

<h4 align="center"> $\displaystyle E \in \left[-127,0 \right) \cup \left(0,127\right]$ </h4>
<br>

por lo que $ E = e - d = e  - \mathbf{127}$.

Es probable que hayas notado que el intervalo

<h4 align="center"> $\displaystyle E \in  \left\lbrace -127,-126, \ldots,-1, 0, 1,2, \ldots ,126,127 \right\rbrace $</h4>

no contiene $256 = 2^8$ valores, sino que sólo son 255. Lo anterior ocurre por que el valor $11111111$ para el exponente, está reservado en el estandar IEEE754 para valores no numéricos. Particularmente si el exponente está compuesto únicamente por 1's y la mantisa está compuesta únicamente por ceros, esto representa un infinito positivo o negativo, según el bit de signo:

<h4 align="center"> $0 \; 11111111 \; 00000000000000000000000 \equiv +\infty$</h4>

<h4 align="center"> $1 \;  11111111 \; 00000000000000000000000 \equiv -\infty$</h4>

Lo anaerior se basa en que si sumamos $1$ al número más grande que se pueda representar con *punto flotante*, entonces obtendremos $\infty$ como resultado. Por otro lado, si el exponente está compuesto únicamente por 1's y la mantisa contiene algún $1$, esto representa un _**NaN**_ (es decir un **N**ot **a** **N**umber). Los **NaN** son el resultado de operaciones no válidas, como sacar la raíz cuadrada de un número negativo (puesto quer el estandar IEEE754 representa números reales) o intentar dividir por cero.

<h4 align="center"> $0 \; 11111111 \; 00000001000000100001001 \equiv \textbf{NaN}$</h4>

### Representación del número cero en el estandar IEEE754

Ahora discutamos cómo es que se codifica el $0$ como un número de *punto flotante* en el estandar IEEE754. En primer lugar, el signo no importa en este caso, por lo que podemos tomarlo positivo, es decir el que primer bit sea $0$. El valor más pequeño posible para el exponente (usando los 8 bits), $00000000$ es decir  $e = 0_{(10)}$, por lo que $ E = 0 - \mathbf{127} = -127$. 

<h4 align="center">
$\displaystyle (-1)^0 2^{-127} \left(1 + \sum_{i=1}^{23} M_i 2^{-i} \right)$
</h4>

Pero ojo. Hay que considerar el $1$ inicial en la mantisa. Si elegimos los 23 digitos como $0$ (i.e. $M_i = 0, \; \forall i $),

<h4 align="center">
$\displaystyle 2^{-127} \left(1 + \sum_{i=1}^{23} 0 \cdot 2^{-i} \right)$
</h4>

todavía nos quedaría un valor de  $1 \times 2^{−127}$, es decir $5.88 \times 10^{−39}$, en base 10. $\;$ Un número muy pequeño, sin duda, ¡pero definitivamente no es cero!

Para garantizar la codificación del cero como una *representación de punto flotante*, el _**Estandar IEEE754**_ dispone que **si todos los bits del exponente son cero** $00000000$ (es decir $e = 0$), **entonces el $1$ inicial implícito en la mantisa se reemplaza por un $0$, y el exponente representado se cambia por $E = −d + 1$**, lo que da como resultado $E = −126$.

<h4 align="center"> $\displaystyle 2^{-126} \cdot \left( 0 \right)$ </h4>

Lo anterior se conoce como forma desnormalizada del IEEE754, en parte de la literatura. 

Finalmente entonces, la representación de **_precisión simple de 32 bits IEEE754_** se maneja en el hardware de la computadora de la siguiente manera:

<img src="img/Mantissa.png" style="aling:center" width=650/>

De tal manera que tomando en cuenta el dígito inicial implícito, se tienen 24 bits de precisión para la mantisa y 8 bits para el exponente (con un exceso $d = 127$). Para entender mejor cómo funciona esto, veamos algunos ejemplos:

In [None]:
127*2+1

In [None]:
2**8

Consideremos el siguiente **_`número de maquina`_**:

<h3 align="center"> $0 \; 10000010 \; 10100000000000000000000$</h3>

Y tratemos de ver a que valor (en base 10) representa, de acuerdo a la forma:

<h4 align="center">
$\color{green}{(-1)^S}$$\cdot 2\color{blue}{^{E}}$ $\displaystyle \left(1 +\color{red}{\sum_{i=1}^E M_i 2^{-i}} \right)$
</h4>

Según el estandar **_IEEE 754_** podemos verlo asi:

<h3 align="center"> $\color{green}{0}$ $\; \color{blue}{10000010}$ $\; \color{red}{10100000000000000000000}$</h3>

en donde los bits de color azúl, codifican el exponente, el de color verde al signo y los de color rojo a la mantiza. 

Así entonces, podemos calcular el exponente $\color{blue}{e}$, de la siguiente manera:

$\color{blue}{e = \mathbf{1} \cdot  2^7 + \mathbf{0} \cdot  2^6 + \mathbf{0} \cdot  2^5 + \mathbf{0} \cdot  2^4 + \mathbf{0} \cdot 2^3 + \mathbf{0} \cdot  2^2 + \mathbf{1} \cdot  2^1 + \mathbf{0} \cdot  2^0}$

$\color{blue}{e = \mathbf{1}  \cdot  2^{7}+ \mathbf{1}  \cdot  2^1}$

$\color{blue}{e = 128 + 2 = 130}$

Y de manera similar la mantiza $\color{red}{M}$

$\color{red}{ \displaystyle M = \mathbf{1}  \cdot \left( \dfrac{1}{2} \right)^1 + \mathbf{0}  \cdot \left( \dfrac{1}{2} \right)^2 + \mathbf{1}  \cdot \left( \dfrac{1}{2} \right)^3} $

y substituyendo en la forma general,
<h2 align="center">
$\displaystyle (-1)^{\color{green}{S}}$ $2\color{blue}{^{e-127}}$$(1+\color{red}{M}$ $)$
</h2>
tenemos que:
<h3 align="center">
$\displaystyle = (-1)^{\color{green}{0}}$ $2\color{blue}{^{130-127}}$$ \left(1+\color{red}{\dfrac{1}{2}+ \dfrac{1}{8}} \right)$
</h3>

<h3 align="center">
$\displaystyle = 2\color{blue}{^{3}}$$ \left(\color{red}{1.625} \right)$
</h3>

<h3 align="center">    
$ = \mathbf{13.0} $
</h3>





$ E = e - d $

$\; \; \; \;= e  - \mathbf{127} = 130 - 127 = \color{blue}{3}$ 



$ M = \color{red}{101}$ 

<h3 align="center">   
$1.\color{red}{101}$$ \times 2\color{blue}{^3}$ $= {1101}$
</h3>

<h3 align="center">   
$\mathbf{1101}_{(2)} = 13_{(10)}$
</h3>

Ahora, consideremos este otro ejemplo:

<h3 align="center"> $\color{green}{0}$ $\; \color{blue}{10000011}$ $\; \color{red}{10111001000100000000000}$</h3>


$ e = $ $\color{blue}{\mathbf{1} \cdot  2^7 + \mathbf{0} \cdot  2^6 + \mathbf{0} \cdot  2^5 + \mathbf{0} \cdot  2^4 + \mathbf{0} \cdot 2^3 + \mathbf{0} \cdot  2^2 + \mathbf{1} \cdot  2^1 + \mathbf{1} \cdot  2^0}$

$ e = $ $\color{blue}{\mathbf{1}  \cdot  2^{7}+ \mathbf{1}  \cdot  2^1 + \mathbf{1}  \cdot  2^0}$

$ e = 128 + 2 + 1 = 131$

$ \displaystyle M = \color{red}{\mathbf{1} \left( \dfrac{1}{2} \right)^1 + \mathbf{0} \left( \dfrac{1}{2} \right)^2 + \mathbf{1} \left( \dfrac{1}{2} \right)^3 + \mathbf{1}  \left( \dfrac{1}{2} \right)^4 + \mathbf{1} \left( \dfrac{1}{2} \right)^5 + \mathbf{0} \left( \dfrac{1}{2} \right)^6 + \mathbf{0} \left( \dfrac{1}{2} \right)^7 +\mathbf{1} \left( \dfrac{1}{2} \right)^8 + \mathbf{0} \left( \dfrac{1}{2} \right)^9 + \mathbf{0} \left( \dfrac{1}{2} \right)^{10} + \mathbf{0} \left( \dfrac{1}{2} \right)^{11} + \mathbf{1} \left( \dfrac{1}{2} \right)^{12}} $

<h3 align="center">
$\displaystyle = (-1)^{\color{green}{0}}$ $2\color{blue}{^{131-127}}$$ \left(1+\color{red}{\dfrac{1}{2}+ \dfrac{1}{8}+ \dfrac{1}{16}+ \dfrac{1}{32}+ \dfrac{1}{256}+ \dfrac{1}{4096}} \right)$
</h3>

<h3 align="center">    
$ = \mathbf{27.56640625} $
</h3>





$ E = e - \mathbf{127} = 131 - 127 = \color{blue}{4}$ 

$ M = \color{red}{101110010001}$ 

<h3 align="center">   
$1.\color{red}{101110010001}$$ \times 2\color{blue}{^4}$ $= {11011.10010001}$
</h3>

<h3 align="center">   
$\mathbf{11011.10010001}_{(2)} = 27.56640625_{(10)}$
</h3>

<!-- <img src="img/IEEE-754.jpg" style="aling:center" width=750/> -->

En 2008 se publicó una versión actualizada del estandar, con el nombre de **IEEE754-2008**; el cual proporciona estándares para números de punto flotante decimales y binarios, formatos para intercambio de datos, algoritmos para redondear operaciones aritméticas y manejo de excepciones. En el mismo, se especifica cuáles son los formatos para las precisiones individuales, dobles y amplias y, en general, todos los fabricantes de microcomputadoras que fabrican harreare de punto flotante siguen estos estándares.

### 1.2.3 El estandar IEEE754 de _doble precisión_ de 64 bits

Si bien los _números de punto flotante de **precisión simple**_ son extremadamente útiles, en los cálculos cotidianos a veces necesitamos más precisión (es decir, dígitos más significativos, lo que requiere un mayor número de bits en la mantisa o un rango mayor en el exponente). El estándar de punto flotante de **doble precisión IEEE754 de 64 bits** ayuda con ambos problemas, ya que ahora tenemos 64 bits para trabajar; esto se divide para dar 1 bit de signo (como antes), 11 bits de exponente y 52 bits de mantisa.
<br>

<img src="img/PrecisionDoble_IEEE-754.png" style="aling:center" width=530>

Con 11 bits de exponente, podemos formar números enteros del $0$ al $2^{11} − 1 = 2047$; por lo tanto, el exceso o compensación para números de punto flotante de doble precisión es ${2^{11} / 2} - 1 = 1023$. Por lo que el rango del exponente en realidad se encuentra entre -1023 y 1024.

<br>

<img src="img/Precisiones_EEE-754.ppm" style="aling:center" width=500 />

Por medio de este sistema obtenemos un número de punto flotante de la forma:

<h3 align="center">
$\color{green}{(-1)^S}$$\cdot 2\color{blue}{^{e-1023}}$ $\displaystyle \left(1 +\color{red}{\sum_{i=1}^E M_i 2^{-i}} \right)$
</h3>

Consideremos el último ejemplo anterior, pero en su representación de  **_`número de maquina`_** en el estandar **IEEE754 de doble precisión (de 64 bits)**:
<br>

<h3 align="center"> $0 \; 10000000011 \; 1011100100010000000000000000000000000000000000000000$</h3>
<br>

Y confirmemos el valor (en base 10) que representa, de acuerdo a la forma:

<h4 align="center">
$\color{green}{(-1)^S}$$\cdot 2\color{blue}{^{e-1023}}$ $\displaystyle \left(1 +\color{red}{\sum_{i=1}^E M_i 2^{-i}} \right)$
</h4>


$\color{blue}{e = \mathbf{1} \times 2^{10}+  \mathbf{0} \cdot 2^9 + \mathbf{0} \cdot  2^8 + \mathbf{0} \cdot  2^7 + \mathbf{0} \cdot  2^6 + \mathbf{0} \cdot  2^5 + \mathbf{0} \cdot  2^4 + \mathbf{0} \cdot 2^3 + \mathbf{0} \cdot  2^2 + \mathbf{1} \cdot  2^1 + \mathbf{1} \cdot  2^0}$

$\color{blue}{e = 1 \cdot  2^{10}+ 1 \cdot  2^1 + 1 \cdot  2^0}$

$\color{blue}{e = 1024 + 2 + 1 = 1027}$

$\color{red}{e =  \displaystyle M = 1 \cdot \left( \dfrac{1}{2} \right)^1 + 1 \cdot \left( \dfrac{1}{2} \right)^3 + 1 \cdot \left( \dfrac{1}{2} \right)^4 + 1 \cdot \left( \dfrac{1}{2} \right)^5  +1 \cdot \left( \dfrac{1}{2} \right)^8  + 1 \cdot \left( \dfrac{1}{2} \right)^{12} } $

<br>

Entonces:

<h4 align="center">
$\displaystyle \color{green}{(-1)^S}$ $\cdot 2\color{blue}{^{e-1023}}$ $\displaystyle \left(1 +\color{red}{\sum_{i=1}^E M_i 2^{-i}} \right) = $ $\displaystyle \color{green}{(-1)^0}$ $\displaystyle \cdot 2\color{blue}{^{1027-1023}}$ $\displaystyle \left( 1 + \color{red}{\dfrac{1}{2}+ \dfrac{1}{8}+ \dfrac{1}{16}+ \dfrac{1}{32}+ \dfrac{1}{256}+ \dfrac{1}{4096}} \right)$
</h4>

<h4 align="center">
$\displaystyle 2\color{blue}{^{4}}$ $\displaystyle \left( 1\color{red}{.722900390625} \right)$ $= 27.56640625 $
</h4>

In [None]:
(1+1/2+1/8+1/16+1/32+1/256+1/4096)*2**4

### Ejercicio 1:

En el estandar *IEEE754 de punto flotante, de doble precisión (64 bits)*:

1) ¿cuál es la magnitud del número más grande? y 
2) ¿cuál es la magnitud del número más pequeño?,

que se puede representar (ignorando el caso de cero).




### Solución:

1) 
El exponente para el número positivo más grande posible, debería ser $E = 1023$. 

Por lo que $ E = e - \mathbf{1023} = 1023$, es decir, $ e = 2046_{(10)} = 11111111110_{(2)}$. Recordemos que $e$ no pueden ser todos 1's, es decir, no puede ser $2047_{(10)} = 11111111111_{(2)}$ puesto que para el exponente $11111111111$ está reservado para valores no numéricos. Caso contrario para la matisa en la cual, los 52 digitos deberían ser 1, para tener el valor más alto. Como estamos considerando la magnitud del número, el signo realmente es irrelevante, por lo que podemos tomarlo positivo, sin perdida de generalidad. Por lo que la representación del número más grande sería:

<h3 align="center"> $\color{green}{0} \;$ $\color{blue}{11111111110} \;$ $\color{red}{ 1111111111111111111111111111111111111111111111111111}$</h3>
<br>

Lo que en base 10 es:
<h3 align="center">
$\displaystyle 2\color{blue}{^{1023}}$ $\displaystyle \left(1 +\color{red}{\sum_{i=1}^{52} 2^{-i}} \right) \;$ $\approx 1.797693 \times 10^{308}$
</h3>

Así, el valor más grande que se puede dar a una variable de punto flotante es aproximadamente $1.8 \times 10^{308}$ (y también existe un valor negativo más grande correspondiente de aproximadamente $-1.8 \times 10^{308}$ ). De manera similar, en los números complejos la parte real como la imaginaria pueden llegar hasta aproximadamente $\pm  \times 10^{308}$, pero no más. 

In [None]:
S = 0
for i in range(0,53):
#     print(S,"+ 2^(","-",i,")")
#     print(S,"+",2**-i)
    S = S + 2**-i
(2**(1023))*S

2) 

El exponente para el número de positivo más pequeño posible, debería ser $E = -1023$. 

Por lo que $ E = e - \mathbf{1023} = 1023$, es decir, $ e = 0_{(10)} = 00000000000_{(2)}$. Y la matisa debería ser el siguiente número depúes del $0$, es decir, los 52 digitos deberían ser 0, excepto por el último. Al igual que en el caso anterior, el signo es irrelevante, pues estamos considerando la magnitud. Por lo que la representación del número más pequeño sería:

<h3 align="center"> $\color{green}{0} \;$ $\color{blue}{00000000000} \;$ $\color{red}{ 0000000000000000000000000000000000000000000000000001}$</h3>
<br>

Lo que en base 10 es:
<h3 align="center">
$\displaystyle 2\color{blue}{^{-1023}}$ $\displaystyle \left(1 +\color{red}{2^{-52}} \right) $
</h3>
<br>

Pero recordemos la regla del _**Estandar IEEE754**_ que dispone que **si todos los bits del exponente son cero entonces el $1$ inicial en la mantisa se reemplaza por un $0$, y el exponente representado se cambia por $E = -d + 1$**, por lo que tenemos que:
<br>

<h3 align="center">
$\displaystyle 2\color{blue}{^{-1023 + 1}}$ $\displaystyle \left(\color{red}{2^{-52}} \right) = $
$\displaystyle 2\color{blue}{^{-1022}}$ $\displaystyle \left(\color{red}{2^{-52}} \right) = {2^{-1074}} \approx 5 \times 10^{-324}$     
</h3>

In [None]:
(2**(-1022))*(1/(2**52))

In [None]:
2**(-1074)

In [None]:
2**(-1075)

En realidad la parte más importante de la regla de cuando _todos los bits del exponente son cero_, es precisamente cambiar el exponente por $E = -d + 1$, pues podriamos pensar que comparado con el orden de magnitud de $2\color{blue}{^{-1023 + 1}}$, el valor de $(1 +\color{red}{2^{-52}}$ $) \approx 1$, por lo que:

<h3 align="center">
$\displaystyle 2\color{blue}{^{-1023}}$ $\displaystyle \left(1 +\color{red}{2^{-52}} \right) \approx 2\color{blue}{^{-1022}}$ $\approx 2.22507 \times 10^{-308}$
</h3>

In [None]:
2**(-1022)

Así, el valor más pequeño que se puede representar con una variable de *punto flotante* es aproximadamente $5 \times 10^{-324}$ (con su respectivo valor negativo aproximadamente $-5 \times 10^{-324}$). Que inlcuso sin llegar a ese limite, podemos tener magnitudes del orden de $10^{-308}$ (o $2^{-1022}$) a groso modo. Lo cual es suficiente para la mayoría de los cálculos que hacemos en Física; incluso todas **las constantes físicas listadas al principio del Notebook** (y mucho más), se pueden representar con este estandar. Sin embargo, veremos que hay ocasiones en las que nos podemos topar con algunos problemas.

<img src="img/FormatosIEEE-754B.png" style="aling:center" width=550/>

Si el valor de una variable excede el número de punto flotante más grande que se puede almacenar en la computadora, decimos que la variable se ha desbordado. Por ejemplo, si una variable de punto flotante x contiene un número cercano al valor máximo permitido de 10308 y luego ejecutamos una declaración como "y = 10*x", es probable que el resultado sea mayor que el máximo y la variable y se desbordará (pero no la variable x, cuyo valor no cambia).

Si esto sucediera durante el curso de un cálculo, podría imaginar que el programa se detendría y tal vez mostraría un mensaje de error, pero en Python esto no es lo que sucede. En lugar de eso, la computadora establecerá la variable en el valor especial "inf", que significa infinito. Si imprime dicha variable con una declaración de impresión, la computadora realmente imprimirá la palabra "inf" en la pantalla. En efecto, todo número superior al 1T308 es infinito en lo que respecta a la computadora.

In [None]:
mx = 1.7976931348623157e308
mx

In [None]:
2*mx

In [None]:
1e309

Podemos preguntar a Python, cuales son sus números máximo y mínimo que puede representar mediante una variables de *punto flotante*, de la siguiente manera:

In [None]:
import sys
sys.float_info.max 

In [None]:
sys.float_info.min

Es importante recordar que los números muy grandes se pueden especificar en *notación científica*, utilizando una `e` para indicar el exponente, lo cual en la mayoría de las ocasiones facilita mucho la programación.

Por ejemplo, `3e8` significa $3 \times 10^{8}$ y `1.602e-19` significa $1.602 \times 10^{-19}$ Hay que tener en cuenta que **los números especificados en notación científica siempre son flotantes**. Incluso si el número es, matemáticamente hablando, un entero (como `3e8`), la computadora lo tratará como un flotante.

In [None]:
print(3e8)
print(1.602e-19)

### Ejercicio 2:

Convierte alguna de **las constantes físicas listadas al principio del Notebook** en:

1) Su representación de punto flotante de presición simple (32 bits)

2) Su representación de punto flotante de presición doble (64 bits)


## 1.2.3 Error de redondeo
<!-- ## 1.2.3 Aritmetica de punto flotante -->

Como acabamos de ver, el problema con los calculos, puede que no necesariamente se deba al representar números demasiado grandes o demasiado pequeños; pues el estandar IEEE754 proporciona un buen rango.

El error que se produce cuando se utiliza una calculadora o computadora para realizar cálculos con números reales recibe el nombre de error de redondeo. Se presenta porque la aritmética realizada en una máquina incluye números con un sólo número finito de dígitos, y esto da como resultado cálculos realizados únicamente con representaciones aproximadas de los números reales.

Consideremos el último ejemplo que vimos de representación en el estandar *IEEE754 de doble precisión (de 64 bits)*, donde teníamos el siguiente  **_`número de maquina`_**:
<br>

<h3 align="center"> $\color{green}{0} \;$ $\color{blue}{10000000011} \;$ $\color{red}{ 1011100100010000000000000000000000000000000000000000}$</h3>
<br>

El cual (como calculamos), representa al número real:


<h3 align="center">
$\displaystyle 2\color{blue}{^{4}}$ $\displaystyle \left( 1\color{red}{.722900390625} \right)$ $= 27.56640625 $
</h3>

Sin embargo, el siguiente **número de máquina** más pequeño es:


<h4 align="center"> $\color{green}{0} \;$ $\color{blue}{10000000011} \;$ $\color{red}{ 1011100100001111111111111111111111111111111111111111}$</h4>

El cual equivale al número real:

<h4 align="center">$27.5664062499999982236431605997495353221893310546875$</h4>
<br>

y el siguiente **número de máquina** más grande es

<h4 align="center"> $\color{green}{0} \;$ $\color{blue}{10000000011} \;$ $\color{red}{ 1011100100010000000000000000000000000000000000000001}$</h4>
<br>

El cual equivale al número real:

<h4 align="center">$27.5664062500000017763568394002504646778106689453125$</h4>

Esto significa que nuestro número de maquina original, no sólo representa a $27.56640625$, sino que también representa a todos los número reales que se encuentran comprendidos en el intervalo:


<h5 align="center"> $\displaystyle \left[ 27.5664062499999982236431605997495353221893310546875, \; \; 27.5664062500000017763568394002504646778106689453125 \right)$</h5>

Así entonces, en la computadora, **sólo un subconjunto relativamente pequeño del sistema de números reales se usa para la representación de todos los números reales**. Este subconjunto sólo contiene números racionales, tanto positivos como negativos, y almacena la parte fraccionaria, junto con una parte exponencial.

Por lo que los números que se pueden llegar a presentar en los cálculos que tienen una magnitud menor que $2^{−1022} \cdot \left(1 + 0 \right)$

resultan en un subdesbordamiento y, en general, se configuran en cero. Los números superiores a

$2^{1023} \cdot \left(2 − 2^{-52} \right)$

resultan en desbordamiento y, comúnmente, causan que los cálculos se detengan (a menos que el programa haya sido diseñado para detectar estás presencias).


<!-- Además, los 53 bits binarios de precisión (52 de la mantisa y 1 del dígito principal implícito) dan como resultado log10 253 ≈ 15,9 cifras significativas en base 10, más del doble del número de dígitos significativos en el caso de precisión simple. ¡Puedes ver cómo los números de doble precisión pueden ser mucho más útiles cuando necesitas trabajar con números grandes y muchos dígitos significativos!

Podemos llegar incluso más allá del doble de precisión si queremos; un IEEE754
El estándar también existe para precisión cuádruple (cuádruple) de 128 bits, que contiene 1 bit de signo, 15 bits de exponente y 112 bits de mantisa, para un total de 128 bits. En la Tabla 1.1 se proporciona un resumen de precisión simple, doble y cuádruple.
 -->