# Teoría de errores en computación

Es importante entender que los computadores no calculan de manera exacta sino aproximada en la mayoría de los casos. Una solución exacta se obtiene solo cuando se trabaja con números enteros, si las operaciones son con números de punto flotante el desarrollo del algoritmo tendrá aproximaciones debido al truncamiento en la operaciones (esto a causa de la representación de números de punto flotante de 32 o 64 bits). Una forma de reducir el error es aumentar el número de bits (por ejemplo a 128 bits) es decir, a más bits más precisión pero nunca una solución igual a la real obtenida por el método analítico. Como veremos las operaciones algebraicas de suma y resta no son exactas ($(a + b) + c \neq a + (b + c)$ es decir, no es asociativa) debido a la representación flotante.

## *Overflow* y *underflow* 
Se refiere al desbordamiento aritmético que se da cuando el binario almacenado en un registro supera su valor máximo, es decir se requiere más bits de los permitidos, este se da con números muy grades o muy pequeños,  
```c
      Overflow }---------------{----0----}--------------{ Overflow
                                underflow
```
El rango de un doble (64 bits) está en el intervalo $10^{-322} < x < 10^{308}$, ósea que
cualquier número fuera de este rango necesita más de 64 bits para ser representado, si $x$ es muy grande hay *overflow* y si es muy pequeño hay *underflow*. La siguiente rutina nos permite calcular el *overflow* multiplicando por 2 y el *underflow* dividiendo por 2,
```python    
i=0.0 
under = over = 1.0
while i<1100:
    under = under/2.0
    over = over*2.0
    print (i, under, over)
    i = i+1
```
Si hay *overflow* python imprime *inf* que significa infinito y si hay underflow python imprime 0.0. Note que una vez alcanzado el *underflow* `under` es más pequeño que el *épsilon de la máquina* de la máquina. 

## Épsilon de la máquina
<a id='epsilon_maquina'></a>
Se refiere al número más pequeño o grande que se puede adicionar en una suma sin que esta cambie, es decir $x+\epsilon_{min}=x$ (o $x+\epsilon_{max}=\epsilon_{max}$). En otras palabras, *"los números que difieren por menos que el épsilon de la máquina, $\epsilon$, son numéricamente iguales"*, esto se da debido al truncamiento de la máquina por usar números flotantes.
 
En python se puede calcular la precisión numérica de la máquina con la siguiente rutina
```python      
# La precisión numérica en adición de números grandes
eps = 1 # epsilon inicial
for n in range(1200):
    eps = eps/2.0
    one = 1. + eps
    print(n, one, eps)
```
Note que en cada paso `one` es la suma de `1 + eps`, donde `eps` se reduce a la mitad en cada iteración.
¿Cuántos iteraciones se necesitan para que `one` sea igual a `1.0 + eps`, es decir que `eps` sea tan pequeño que no aporte a la suma?

Python tiene otras otras formas adicionales de calcular el `eps` con mayor precisión usando numpy: 
```python 
import numpy as np
eps = np.finfo(float).eps 
1.0 == 1.0 + eps/2. # resultado: True
```    
(Verificar en ipython estas dos lineas de comandos para verificar que 1 es igual a 1 + `eps/2`; compare el valor de `eps` al valor encontrado en el caso anterior al rededor de la iteración 51 ¿son iguales?).

Igualmente se puede encontrar el número más pequeño a adicionar antes que los dos números sean iguales:
```python      
# La precisión numérica con números pequeños
eps=1
for n in range(1200):
    eps=eps*2.0
    one=1.0 + eps
    print(n, one, eps, one-eps) 
```
Note que a cada paso se adiciona un `eps` multiplicado por 2. Igual que en el caso anterior hay un momento en el cual `one - eps` se hace cero (¿a qué paso?), ósea: `eps` es tan grande que la la adición de 1.0 no cambia el resultado debido a que esta adición queda fuera del rango de representación del número (para ver esto corra el código compare `one` y `eps`, ¿a que paso ocurre esto?).

In [None]:
i=0.0 
under = over = 1.0
while i<1100:
    under = under/2.0
    over = over*2.0
    print (i, under, over)
    i = i+1

0.0 0.5 2.0
1.0 0.25 4.0
2.0 0.125 8.0
3.0 0.0625 16.0
4.0 0.03125 32.0
5.0 0.015625 64.0
6.0 0.0078125 128.0
7.0 0.00390625 256.0
8.0 0.001953125 512.0
9.0 0.0009765625 1024.0
10.0 0.00048828125 2048.0
11.0 0.000244140625 4096.0
12.0 0.0001220703125 8192.0
13.0 6.103515625e-05 16384.0
14.0 3.0517578125e-05 32768.0
15.0 1.52587890625e-05 65536.0
16.0 7.62939453125e-06 131072.0
17.0 3.814697265625e-06 262144.0
18.0 1.9073486328125e-06 524288.0
19.0 9.5367431640625e-07 1048576.0
20.0 4.76837158203125e-07 2097152.0
21.0 2.384185791015625e-07 4194304.0
22.0 1.1920928955078125e-07 8388608.0
23.0 5.960464477539063e-08 16777216.0
24.0 2.9802322387695312e-08 33554432.0
25.0 1.4901161193847656e-08 67108864.0
26.0 7.450580596923828e-09 134217728.0
27.0 3.725290298461914e-09 268435456.0
28.0 1.862645149230957e-09 536870912.0
29.0 9.313225746154785e-10 1073741824.0
30.0 4.656612873077393e-10 2147483648.0
31.0 2.3283064365386963e-10 4294967296.0
32.0 1.1641532182693481e-10 8589934592.0
33.0 5.82076

407.0 1.512731216738015e-123 6.610559687902486e+122
408.0 7.563656083690075e-124 1.3221119375804972e+123
409.0 3.7818280418450374e-124 2.6442238751609944e+123
410.0 1.8909140209225187e-124 5.288447750321989e+123
411.0 9.454570104612593e-125 1.0576895500643978e+124
412.0 4.727285052306297e-125 2.1153791001287955e+124
413.0 2.3636425261531484e-125 4.230758200257591e+124
414.0 1.1818212630765742e-125 8.461516400515182e+124
415.0 5.909106315382871e-126 1.6923032801030364e+125
416.0 2.9545531576914354e-126 3.384606560206073e+125
417.0 1.4772765788457177e-126 6.769213120412146e+125
418.0 7.386382894228589e-127 1.3538426240824291e+126
419.0 3.6931914471142943e-127 2.7076852481648583e+126
420.0 1.8465957235571472e-127 5.415370496329717e+126
421.0 9.232978617785736e-128 1.0830740992659433e+127
422.0 4.616489308892868e-128 2.1661481985318866e+127
423.0 2.308244654446434e-128 4.332296397063773e+127
424.0 1.154122327223217e-128 8.664592794127546e+127
425.0 5.770611636116085e-129 1.7329185588255093

660.0 1.0451361413042083e-199 9.568131466127622e+198
661.0 5.225680706521042e-200 1.9136262932255244e+199
662.0 2.612840353260521e-200 3.827252586451049e+199
663.0 1.3064201766302604e-200 7.654505172902098e+199
664.0 6.532100883151302e-201 1.5309010345804195e+200
665.0 3.266050441575651e-201 3.061802069160839e+200
666.0 1.6330252207878255e-201 6.123604138321678e+200
667.0 8.165126103939127e-202 1.2247208276643356e+201
668.0 4.082563051969564e-202 2.4494416553286712e+201
669.0 2.041281525984782e-202 4.8988833106573424e+201
670.0 1.020640762992391e-202 9.797766621314685e+201
671.0 5.103203814961955e-203 1.959553324262937e+202
672.0 2.5516019074809773e-203 3.919106648525874e+202
673.0 1.2758009537404886e-203 7.838213297051748e+202
674.0 6.379004768702443e-204 1.5676426594103496e+203
675.0 3.1895023843512216e-204 3.135285318820699e+203
676.0 1.5947511921756108e-204 6.270570637641398e+203
677.0 7.973755960878054e-205 1.2541141275282797e+204
678.0 3.986877980439027e-205 2.5082282550565593e+2

993.0 5.972887158420601e-300 1.6742321987285427e+299
994.0 2.9864435792103004e-300 3.3484643974570854e+299
995.0 1.4932217896051502e-300 6.696928794914171e+299
996.0 7.466108948025751e-301 1.3393857589828342e+300
997.0 3.7330544740128755e-301 2.6787715179656683e+300
998.0 1.8665272370064378e-301 5.357543035931337e+300
999.0 9.332636185032189e-302 1.0715086071862673e+301
1000.0 4.6663180925160944e-302 2.1430172143725346e+301
1001.0 2.3331590462580472e-302 4.2860344287450693e+301
1002.0 1.1665795231290236e-302 8.572068857490139e+301
1003.0 5.832897615645118e-303 1.7144137714980277e+302
1004.0 2.916448807822559e-303 3.4288275429960554e+302
1005.0 1.4582244039112795e-303 6.857655085992111e+302
1006.0 7.291122019556398e-304 1.3715310171984222e+303
1007.0 3.645561009778199e-304 2.7430620343968443e+303
1008.0 1.8227805048890994e-304 5.486124068793689e+303
1009.0 9.113902524445497e-305 1.0972248137587377e+304
1010.0 4.5569512622227484e-305 2.1944496275174755e+304
1011.0 2.2784756311113742e-305

In [None]:
# La precisión numérica en adición de números grandes
eps = 1 # epsilon inicial
for n in range(1200):
    eps = eps*2.0
    one = 1. + eps
    print(n, one, eps)

0 3.0 2.0
1 5.0 4.0
2 9.0 8.0
3 17.0 16.0
4 33.0 32.0
5 65.0 64.0
6 129.0 128.0
7 257.0 256.0
8 513.0 512.0
9 1025.0 1024.0
10 2049.0 2048.0
11 4097.0 4096.0
12 8193.0 8192.0
13 16385.0 16384.0
14 32769.0 32768.0
15 65537.0 65536.0
16 131073.0 131072.0
17 262145.0 262144.0
18 524289.0 524288.0
19 1048577.0 1048576.0
20 2097153.0 2097152.0
21 4194305.0 4194304.0
22 8388609.0 8388608.0
23 16777217.0 16777216.0
24 33554433.0 33554432.0
25 67108865.0 67108864.0
26 134217729.0 134217728.0
27 268435457.0 268435456.0
28 536870913.0 536870912.0
29 1073741825.0 1073741824.0
30 2147483649.0 2147483648.0
31 4294967297.0 4294967296.0
32 8589934593.0 8589934592.0
33 17179869185.0 17179869184.0
34 34359738369.0 34359738368.0
35 68719476737.0 68719476736.0
36 137438953473.0 137438953472.0
37 274877906945.0 274877906944.0
38 549755813889.0 549755813888.0
39 1099511627777.0 1099511627776.0
40 2199023255553.0 2199023255552.0
41 4398046511105.0 4398046511104.0
42 8796093022209.0 8796093022208.0
43 175921

225 1.0783978666860256e+68 1.0783978666860256e+68
226 2.1567957333720512e+68 2.1567957333720512e+68
227 4.3135914667441024e+68 4.3135914667441024e+68
228 8.627182933488205e+68 8.627182933488205e+68
229 1.725436586697641e+69 1.725436586697641e+69
230 3.450873173395282e+69 3.450873173395282e+69
231 6.901746346790564e+69 6.901746346790564e+69
232 1.3803492693581128e+70 1.3803492693581128e+70
233 2.7606985387162255e+70 2.7606985387162255e+70
234 5.521397077432451e+70 5.521397077432451e+70
235 1.1042794154864902e+71 1.1042794154864902e+71
236 2.2085588309729804e+71 2.2085588309729804e+71
237 4.417117661945961e+71 4.417117661945961e+71
238 8.834235323891922e+71 8.834235323891922e+71
239 1.7668470647783843e+72 1.7668470647783843e+72
240 3.533694129556769e+72 3.533694129556769e+72
241 7.067388259113537e+72 7.067388259113537e+72
242 1.4134776518227075e+73 1.4134776518227075e+73
243 2.826955303645415e+73 2.826955303645415e+73
244 5.65391060729083e+73 5.65391060729083e+73
245 1.130782121458166e+7

558 1.8869812124107707e+168 1.8869812124107707e+168
559 3.7739624248215414e+168 3.7739624248215414e+168
560 7.547924849643083e+168 7.547924849643083e+168
561 1.5095849699286165e+169 1.5095849699286165e+169
562 3.019169939857233e+169 3.019169939857233e+169
563 6.038339879714466e+169 6.038339879714466e+169
564 1.2076679759428932e+170 1.2076679759428932e+170
565 2.4153359518857865e+170 2.4153359518857865e+170
566 4.830671903771573e+170 4.830671903771573e+170
567 9.661343807543146e+170 9.661343807543146e+170
568 1.9322687615086292e+171 1.9322687615086292e+171
569 3.8645375230172583e+171 3.8645375230172583e+171
570 7.729075046034517e+171 7.729075046034517e+171
571 1.5458150092069033e+172 1.5458150092069033e+172
572 3.091630018413807e+172 3.091630018413807e+172
573 6.183260036827614e+172 6.183260036827614e+172
574 1.2366520073655227e+173 1.2366520073655227e+173
575 2.4733040147310453e+173 2.4733040147310453e+173
576 4.946608029462091e+173 4.946608029462091e+173
577 9.893216058924181e+173 9.8

984 3.269984763141685e+296 3.269984763141685e+296
985 6.53996952628337e+296 6.53996952628337e+296
986 1.307993905256674e+297 1.307993905256674e+297
987 2.615987810513348e+297 2.615987810513348e+297
988 5.231975621026696e+297 5.231975621026696e+297
989 1.0463951242053392e+298 1.0463951242053392e+298
990 2.0927902484106784e+298 2.0927902484106784e+298
991 4.185580496821357e+298 4.185580496821357e+298
992 8.371160993642713e+298 8.371160993642713e+298
993 1.6742321987285427e+299 1.6742321987285427e+299
994 3.3484643974570854e+299 3.3484643974570854e+299
995 6.696928794914171e+299 6.696928794914171e+299
996 1.3393857589828342e+300 1.3393857589828342e+300
997 2.6787715179656683e+300 2.6787715179656683e+300
998 5.357543035931337e+300 5.357543035931337e+300
999 1.0715086071862673e+301 1.0715086071862673e+301
1000 2.1430172143725346e+301 2.1430172143725346e+301
1001 4.2860344287450693e+301 4.2860344287450693e+301
1002 8.572068857490139e+301 8.572068857490139e+301
1003 1.7144137714980277e+302 1.

## Tipos de errores
<a id='Tipos_de_errores'></a>
Primero que todo miremos los tipos de errores que se dan en computación: 

**Errores del usuario**:  son errores tipográficos, mal diseño del código, archivo equivocado, etc, estos son evitables.

**Errores aleatorios**: Fluctuaciones eléctricas, fallo de electricidad, rayos cósmicos etc, estos errores son raros y la probabilidad de que ocurran aumentan con el tiempo de computo del algoritmo en la maquina (hay códigos que corren por semanas o meses). En estos errores no se tiene control como en el caso anterior. 

**Errores de aproximación**: Estos errores son más de carácter matemático, es decir aproximaciones que se hacen al truncar una serie o la solución de una ecuación, la serie de Taylor es la herramienta preferida para este tipo de aproximaciones:

$$\sin(x) = \sum^{N}_{n=1} \frac{(-1)^{n-1}}{(2n-1)!} x^{2n-1} + \epsilon(x,N),$$
donde $ \epsilon(x,N)$ es el error introducido al truncar la serie.

**Errores de redondeo numérico**: Ocurre por solo considerar un número finito de cifras significativas en las operaciones numéricas. Por Ejemplo, los números fraccionarios 2/3 y 1/3 tienen infinitas cifras en base 10 (y en base 2), al truncar con 4 cifras significativas tenemos $1/3\approx0.3333$, pero $2/3\approx0.6667$, pues la ultima cifra se redondea a 7, así si hacemos la operación: 
$$2\times\frac{1}{3}-\frac{2}{3}=0.6666-0.6667=-\,0.0001\neq0$$
encontramos un error de 0.0001, aunque este valor es pequeño no es cero.

**Errores debido al redondeo por uso de números de tipo flotante**: Este error es básicamente del mismo tipo del caso anterior, se debe a que al usar una representación finita de 32 o 64 bits se hace una truncación numérica de 7 cifras significativas para 32 bits y de aproximadamente 15 o 16 cifras para 64 bits (recordar la representación binaria). Afortunadamente los computadores modernos ya usan representación de 64 bits que permite reducir considerablemente este tipo de error. No obstante miremos un poco más en detalle este tipo de error y como afecta las aproximaciones matemáticas:

In [None]:
import numpy as np

# Error en operaciones simples para 16, 32 y 64 bits:
print( np.float16(5/7.),np.float32(5/7.), 5/7)
print( np.float16(1/10.),np.float32(1/10.), 1/10)

0.7144 0.71428573 0.7142857142857143
0.1 0.1 0.1


In [None]:
# Error en la suma con 16 bits de representación, 
# comparar a resultado con 64 bits (usado por defecto)
# note las funciones numpy.floatxx redondean a 16,32,64 o 128 bits

# sumar 1/10 diez veces no da 1.0
x = 0
for i in range(10):
    x += np.float16(1.0/10)
print('operación con 16 bits:',x)

operación con 16 bits: 0.999755859375


**Preguntas**:<br>
Si un número en representación de 16 bits usa 5 bits para el exponente y 10 para la mantisa ¿Cuántas cifras significativas tiene en base 10?
¿Cuáles cifras son basura en el cálculo anterior?

**Ejemplo**, la siguiente multiplicatoria, $\prod_{n=1}^{20}2^{\frac{1}{20}}$,
debe converger a 2, comparemos los resultados a 16 y 64 bits:

In [None]:
# Error en multiplicación con 16 bits de representación, 
# comparar a resultado con 64 bits (usado por defecto) 
#(resta y division son casos especiales de adición y multiplicación.)
# la multiplicatoria converge a 2.0
N = 20
x16 = x64 = 1
print ('iter 16 bits,   64 bits,     error')
for i in range(N):
    x16 *= np.float16(2.0**(1.0/N))
    x64 *= np.float64(2.0**(1.0/N))#Note que no es necesario escribir el float64
    
print (i, x16, x64, np.abs(x16-x64))

iter 16 bits,   64 bits,     error
19 1.9958053041750938 2.000000000000003 0.004194695824909278


El siguiente ejemplo muestra el error en el cálculo de la serie de la función [seno](#seno), 

$$\sin(x) = \sum^{N}_{n=1} \frac{(-1)^{n-1}}{(2n-1)!} x^{2n-1} + \epsilon(x,N),$$

debido al uso de 32 bits en vez de 64 bits. 
Este algoritmo es pesado debido al factorial, el error con 32 bits es obvio pero no con 64 bits.

Importante: Note que cada número tiene que ser pasado a 32 bits para que la operación numérica sea de 32 bits, si algún número no es de 32 bits python pasará automáticamente todos los números a 64 bits en las operaciones, y no se podrá ver fácilmente el error.

In [None]:
#------ error en el calculo de la serie seno con 80 terms----------------
# probar con otros ángulos!
import numpy as np

x = np.float32(85*np.pi/180) # Inicialize   
N = 80                   # usar un valor mas grande da error
f_1 = np.float32(1); f_2 = np.float32(2)
Sum = np.float32(0.0)    # observe que se pone 0.0 (flotante) y no 0 (entero),
for n in range(1,N+1):   # da el array 1,2,3, ..... N
   nf = np.float32(n)
   Sum = Sum + (-f_1)**(nf-f_1)*x**(f_2*nf-f_1)/np.float32(np.math.factorial(2*n-1))

print('sen(x),         serie')    
print(np.sin(85*np.pi/180), Sum) # use Sum.dtype para verificar que es un float32

sen(x),         serie
0.9961946980917455 0.9961946


In [None]:
# Este algoritmo es igual al anterior, pero por defecto con 64 bits
# y se usa la función numpy.sum()
x = 85*np.pi/180 # Inicialize   
N = 80                     # usar un valor mas grande da error

Sum = sum([(-1.)**(n-1.)*x**(2.*n-1.)/np.math.factorial(2*n-1) for n in range(1,N+1)])
print (Sum, abs(Sum-np.sin(85*np.pi/180))) 

0.9961946980917457 1.1102230246251565e-16


## Cómo medir errores
Sea $x$ el valor verdadero y $x^*$ el valor aproximado

**Error absoluto**: se define como 
\begin{equation*} 
\epsilon_{abs}= |x-x^*|
\end{equation*}
**Error relativo**: es dado por 
\begin{equation*} 
\epsilon_{rel}= \frac{|x-x^*|}{|x|}
\end{equation*}
**Error porcentual**: es dado por 
\begin{equation*} 
\epsilon_{\%}= \frac{|x-x^*|}{|x|}*100
\end{equation*}
**Error en series**: El error para truncar una serie se toma como
\begin{equation*} 
\epsilon_{aprox}= \left|\frac{nth\hbox{-term}}{\hbox{suma}}\right|< \hbox{eps}
\end{equation*}
La tolerancia normalmente se toma como un número pequeño, por ejemplo `eps` $=10^{-10}$. Note que no se trunca la serie usando $|{nth}\hbox{-term}|<$ eps,   usar esta forma puede conducir a errores debido a que no se compara con el valor de la suma (un millón comparado a uno es grande, pero comparado a diez mil millones es pequeño).

Tomemos como ejemplo otra vez el cálculo de la serie del seno y calculemos el error,

In [None]:
# Solo de 8 a 9 pasos son necesitados para alcanzar la precision epsilon (eps).
x = 85*np.pi/180;  eps = 1.0e-8 # Inicialize   
N = 80      # usar un valor mas grande da error
Sum = 0.0   # observe que se pone 0.0 (flotante) y no 0 (entero),
for n in range(1,N+1): # da el array 1,2,3, ..... N
   term = (-1)**(n-1)*x**(2.*n-1.)/np.math.factorial(2*n-1)
   Sum = Sum + term
   if ( abs (term/Sum) < eps ): break # parar si el error es menor que epsilon
   
print (Sum, n, abs (term/Sum)) 

0.9961946980894644 8 2.848397280372024e-10


El calculo del factorial tiene varios detalles importantes, pues crece de manera rápida (18! ya tiene 16 digitos) y aunque python3 tiene una precisión arbitraria para enteros, en algunos casos se debe multiplicar por un float y el resultado finál quedará truncado a unos 16 dígitos (los restantes se pierden) veamos:

In [None]:
# Problema del factorial al multiplicar por un float:
np.math.factorial(60), np.math.factorial(60)*1.0

(8320987112741390144276341183223364380754172606361245952449277696409600000000000000,
 8.32098711274139e+81)

Note que al multiplicar por 1.0 el punto se corre de la posición 81 a la 1 y se trunca a 15 dígitos, esto introduce errores en los cálculos. Además el factorial de un número no muy grande produce desbordamiento númerico (por ejemplo $171!$ tiene 311 digitos y $171!\times 1.0$ da un error pues es del orden de $10^{310}$ que es más grande que el mayor exponente permitido para floats). 

### Reciclaje de cálculos y reducción del error
<a id='reciclaje_de_variable'></a>
Finalmente resaltemos la importancia de reciclar los términos calculados en iteraciones previas. Primero que todo note que el error en el cálculo de la serie seno se da debido a que para el *nth*-término se calcula la división de dos cantidades muy grandes, esto introduce un error significativo, en la siguiente variación se evita calcular el factorial, el resultado es mejor que en los dos ejemplos anteriores, note que se reescribe el término de la serie como, 

$$\frac{(-1)^{n-1}}{(2n-1)!} x^{2n-1}=\frac{-x^2}{(2n-1)(2n-2)} \frac{(-1)^{n-2}}{(2n-3)!} x^{2n-3}$$
(Tarea, verificar esta igualdad).

In [None]:
# Funciona para x distinto de cero.
Sum = term = x = 85*np.pi/180; eps = 1.0e-8 # Inicialize
n = 2 # comenzamos en 2, pues para n = 1 ya asignamos el valor x
while ( abs (term/Sum) > eps ):
   term = -term*x*x/(2.*n-1.)/(2.*n-2.)
   Sum = Sum + term
   n = n + 1

print('función seno:',np.sin(x))
print('serie seno:  ',Sum, n, abs (term/Sum)) 

función seno: 0.9961946980917455
serie seno:   0.9961946980894644 9 2.848397280372024e-10


En general la forma más eficiente de calcular la serie del seno es reciclar
el resultado del paso anterior, evitando introducir el error producido por un  overflow. 

**Problema**: El error por no reciclar es bastante notable con 32 bits, con 64 bits casi no se nota; repita este problema usando 32 bits y compare.

**Problema**: el código anterior de la serie seno falla para $x=0$ ¿cómo lo solucionaría? 


### Error al sumar  cantidades grandes con pequeñas
Cuando se suman cantidades pequeñas a cantidades grandes, las dos cantidades no deben diferir por una cantidad que  requiera mayor cantidad de cifras significativas que la representación, por ejemplo la siguiente suma con con 64 bits da el mismo resultado,
```python 
      1.0 + 1e16 = 1e16, 
```      
como se explicó [anteriormente](#epsilon_maquina), esto se da debido a que usamos 64 bits y esta representación solo permite unas 15 cifras significativas, note que si sumamos, 
```python       
      1.0 + 1.0e15 = 1000000000000001.0
```
el uno se agrega en la último digito significativo (en este caso el 15).
Esto significa que la suma no es conmutativa en números de punto flotante, es decir, $(a + b) + c \neq a + (b + c)$.      

In [None]:
# Depende de como se asocien los unos sumados da resultados diferentes: 
print(1e16 + 1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1  )
print(1e16 +(1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1+1) )
print(1e16 +(1+1+1+1+1+1+1+1+1+1+1+1+1)+1+1+1+1+1+1+1+1+1+1+1 )

1e+16
1.0000000000000024e+16
1.0000000000000012e+16


### Error de cancelación sustractiva
<a id='Error_de_cancelación_sustractiva'></a>
Ocurre cuando se restan dos números muy similares, debido a que el resultado cuenta con menos cifras significativas, por ejemplo considere la siguiente operación con 64 bits,
```python 
       1234567891 - 1234567809 = 82
```      
pero con 32 bits da,
```python 
      float32(1234567891) - float32(1234567809) = 128.0
```
Si esta resta está en el denominador de una operación el error es todavía peor (calcule los inversos y compare).

La precisión en el resultado de la cancelación será igual al número de cifras a la derecha que sean distintas de cero, por ejemplo la resta, $1234999-1234888=0000111$, tiene solo 3 cifras significativas. 

**Ejemplo**

In [None]:
# Operación con 64 bits
x = 1234567891.0 
y = 1234567809.0 
print(x - y)   # da 82.0

# Operación con 32 bits
x32 = np.float32(x)
y32 = np.float32(y)
print(x32 - y32) # da 128.0 

82.0
128.0


**Ejercicio**: comparar las siguientes dos cantidades donde los primeros 8 dígitos son iguales, restar para ver que la precisión del resultado es de ocho dígitos (los últimos 8 dígitos) y no de 16:

In [None]:
# Compare las siguientes cantidades para tipo int y tipo float
# primeros 8 digitos iguales, la resta da: 00000000806398288.0
12345678901234567, 12345678094836279,  12345678901234567., 12345678094836279. 

(12345678901234567,
 12345678094836279,
 1.2345678901234568e+16,
 1.234567809483628e+16)

**Ejemplo**: comparación de dos cantidades con 17 dígitos iguales:

In [None]:
# primeros 17 digitos iguales con enteros: resultado verdadero
123456789012345675454325 - \
123456789012345678794305 # 

-3339980

In [None]:
# primeros 17 digitos iguales, pero con floats: resultado erroneo
123456789012345675454325. - \
123456789012345678794305.

-16777216.0

**Error catastrófico en la ecuación cuadrática**: este es un ejemplo clásico de la cancelación sustractiva, considere la ecuación cuadrática

$$ax^{2}+bx+c=0$$

la cual tiene solución exacta

$$x=\frac{-b \pm \sqrt{b^2-4ac} }{2a}.$$

El error de cancelación sustractiva aparece en una de las raíces cuando $b^2>>4ac$ debido a que en la raíz cuadrada sus términos aproximadamente se cancelan, (lo cual da $b \pm\sqrt{b^2}\approx 0$ dependiendo del caso). Una solución es reescribir la solución de la siguiente manera

$$x=\frac{-2c}{b \pm \sqrt{b^2-4ac} }.$$

Esta expresión tiene mayor precisión pues por ejemplo si $b>0$, entonces $b+\sqrt{b^2}\approx 2b$, igual en el otro caso $b<0$ pues $-b-\sqrt{b^2}\approx -2b$ (ver ejercicio al final). 

**Ejemplo**: Consideremos la siguiente ecuación,

$$x^2 - 1.786737601482363x + 2.054360090947453\times 10^{-8}=0$$

que tiene raíces analíticas (representación de double con 16 dígitos de precisión),

$$(x-1.786737589984535)(x-1.149782767465722\times 10^{-8})=0$$

Comparemos los dos métodos de solución:

In [None]:
## solución de la ecuación ax^2 + bx + c = 0
# note que b**2 >> 4ac
x1=1.786737589984535    # raíz analítica
x2=1.149782767465722e-8 # 
a=1.; b = - 1.786737601482363; c = 2.054360090947453e-8 

print( b**2,'>>', 4*a*c)

K = b**2. - 4.*a*c
x_mas   = (-b + K**0.5)/(2*a)# note que b<0 y no hay cancelación 
x_menos = (-b - K**0.5)/(2*a)# raiz con problema de cancelación

y_mas   = -2.*c/(b + K**0.5) # no funciona, pues introduce cancelación (funcionaría si b>0).
y_menos = -2.*c/(b - K**0.5) # soluciona el problema de cancelación
print ("Formula normal:    ",x_menos, x_mas)
print ("Formula modificada:",y_menos, y_mas)
print ("valor real:        ",x2, x1)

3.1924312565509476 >> 8.217440363789811e-08
Formula normal:     1.1497827689943563e-08 1.7867375899845355
Formula modificada: 1.1497827674657215e-08 1.78673758760907
valor real:         1.149782767465722e-08 1.786737589984535


Si analizamos con detalle, vemos que en el caso de `x_menos` solo se retienen 8 cifras significativas con la fórmula normal debido a la cancelación sustractiva entre $b$ y $\sqrt{(b^2-4ac)}$, pero al usar la fórmula modificada se recuperan todos los dígitos. Entonces, la solución es dada por los valores de `x_mas` de la fórmula original y `y_menos` de la fórmula modificada.

Note que la fórmula anterior solo evita la cancelación entre $b$ y $\sqrt{(b^2-4ac)}$ pero no la cancelación dentro de la raíz $b^2-4ac$, en estos casos se debe aumentar la precisión al doble (128 bits) si se requiere un resultado muy preciso. Veamos un ejemplo, considere la ecuación propuesta por Kajan,

$$94906265.625x^2-189812534x+94906268.375=0$$

con raíces

 $$(x - 1.000000028975958)(x- 1.000000000000000)=0$$ 

Si solucionamos en python vemos que las dos fórmulas dan resultados equivocados:

In [None]:
a=94906265.625; b=-189812534; c = 94906268.375

K = b**2. - 4*a*c
x_mas   = (-b + K**0.5)/(2*a) 
x_menos = (-b - K**0.5)/(2*a)  

y_mas   = -2*c/(b + K**0.5) 
y_menos = -2*c/(b - K**0.5)  

print ("Formula normal:    ",x_mas, x_menos)
print ("Formula modificada:",y_mas, y_menos)

Formula normal:     1.0000000144879793 1.0000000144879793
Formula modificada: 1.000000014487979 1.000000014487979





















# Complemento
Definición de [ULP](https://en.wikipedia.org/wiki/Unit_in_the_last_place) ("*Unit in the Last Place*" o "*Unit of Least Precision*"): es una medida del espaciamiento entre dos números flotantes,  que es usada para medir la precisión en cálculos numéricos. 

<!---
In computer science and numerical analysis, unit in the last place or unit of least precision (ULP) is the spacing between floating-point numbers, i.e., the value the least significant digit (rightmost digit) represents if it is 1. It is used as a measure of accuracy in numeric calculations.
also see:
https://math.stackexchange.com/questions/42920/efficient-and-accurate-approximation-of-error-function
--->
En el siguiente ejemplo el resultado da $2^{53}$ debido al formato de doble precisión que usa 53 bits en el significando:

In [None]:
x = 1.0 # valor inicial
n = 0   # exponente de 2^n
while x != x + 1: 
    x = x * 2 
    n = n + 1 

x, n 

(9007199254740992.0, 53)


## Ejercicios
1) Calcule el error absoluto y relativo de  $p$  y $p^∗$:

&emsp; a) $p = \pi,\, p^∗ = 22/7$<br> 
&emsp; b) $p = \pi,\, p^∗ = 3.1416$<br>
&emsp; c) $p = e,\, p∗ = 2.718$<br> 
&emsp; d) $p = \sqrt{2},\, p∗ = 1.414$<br>
&emsp; e) $p = e^{10},\, p^∗ = 22000$<br> 
&emsp; f) $p = 10^{\pi} ,\, p^∗ = 1400$<br>
&emsp; g) $p = 8!\,, p^∗ = 39900$<br> 
&emsp; h) $p = 9!,\, p^∗ = \sqrt{18\pi}(9/e)^9$

2) Considere el siguiente código:
```python      
for x in range(20):
    print (x,10**x + 1.0e20)
```
Al ejecutarlo los primeros 4 prints son iguales, explique porque.
¿Qué pasa si se usa 32 bits en la operación?

3) ¿Cuál es la cantidad más pequeña, $a$, que se puede agregar a la suma para que esta cambie (es decir $x+a\neq x$) los siguientes números? 
```python 
1.0e10
1.0e15
1.0e20
1.025e30
```        
si a) los números son de 64 bits b) son de 32 bits?

4) Explique por qué $ (1000 + 0.5) + 0.5 = 1000 + 0.5$ da una respuesta diferente a $1000. + (0.5 + 0.5)$ si solo se consideran 4 cifras significativas ¿Cuales son los resultados en ambos casos?

5) investigue como afecta la cancelación sustractiva la siguiente operación
$$\frac{f(b)-f(a)}{b-a},$$ si $f(x)=x^2, b=3.0$ y 

&emsp; a) $b-a=0.001$,<br> 
&emsp; b) $b-a=0.00001$,<br> 
&emsp; c) $b-a=0.000001$.  

6) Implemente las siguientes expreciones y series en python de manera tradicional, luego use la idea de [reciclaje](#reciclaje_de_variable) del paso anterior (como se hizo en la serie seno) para reducir el error y simplificar los cálculos (usar `eps = 1e-8`, $x$ = 45 y $N=100$), cálcular el error en cada caso,

&emsp; a) $e^x = \sum_{n=0}^N \frac{x^n}{n!}$. 

&emsp; b) $\binom {n}{k}={\frac {n!}{k!\,(n-k)!}}={\frac {n+1-k}{k}}{\binom {n}{k-1}}$, fórmula recurrente para coeficiente binomial (considere la simetría: $\binom {n}{k} =\binom {n}{n-k}$).

&emsp; c) $B_{k}=-\sum _{i=0}^{k-1}{k \choose {i}}{\frac {B_{i}}{k+1-i}}$, con $B_0=1$, fórmula recurrente para números de Bernouilli.

&emsp; d) $\cos x = \sum^{N}_{n=0} \frac{(-1)^n}{(2n)!} x^{2n}$.
     
&emsp; e) $\tan x = \sum^{N}_{n=1} \frac{B_{2n} (-4)^n \left(1-4^n\right)}{(2n)!} x^{2n-1}$, donde los $B_k$  son los números de Bernouilli. 
     
&emsp; f) $\text{arcsen}\, x = \sum^{N}_{n=0} \frac{(2n)!}{4^n (n!)^2 (2n+1)} x^{2n+1},\quad\mbox{ para } \left| x \right| < 1$. 
     
&emsp; g) $\arccos x =\frac{\pi}{2}-\text{arcsen}\, x =\frac{\pi}{2}- \sum^{N}_{n=0} \frac{(2n)!}{4^n (n!)^2 (2n+1)} x^{2n+1}$.

&emsp; h) $\arctan x = \sum^N_{n=0} \frac{(-1)^n}{2n+1} x^{2n+1}\quad\mbox{, para } \left| x \right| < 1.$

&emsp; i) $(x+y)^{n}=\sum _{k=0}^{n}{\binom {n}{k}}x^{n-k}y^{k}$, fórmula binomial.

&emsp; j) $\sum _{k=0}^{n}{\binom {n}{k}}=2^{n}$.

7) El triángulo de pascal se determina a partir de los coeficientes de la expansión de la fórmula binomial
dada en el ejercicio anterior, ósea:
$$ 
\begin{eqnarray}
(a+b)^{0}&=&\quad\quad\quad\quad\,\,\, 1\\
(a+b)^{1}&=&\quad\quad\quad\,\, 1a+1b\\
(a+b)^{2}&=&\quad\quad\, 1a^{2}+2ab+1b^{2}\\
(a+b)^{3}&=&\quad 1a^{3}+3a^{2}b+3ab^{2}+1b^{3}\\
&\vdots&\\
(a+b)^{n}&=&1a^{n}+a^{n-1}b+a^{n-2}b^{2}...+ 1b^{n},\\
\end{eqnarray}
$$

haga un programa que grafique el triángulo de pascal para $n=10$.

8) Escriba un programa que calcule las 2 raíces de la ecuación cuadática usando la solución numérica tradicional y otro con la solución que da mayor precisión, compare los resultados. a) Para esto use la ecuación $8.47x^2+52.31x+0.3904=0.0$.

b) Investigue como cambia el error a medida que la cancelación sustractiva se aproxima al epsilon de la máquina (use $a=1,b=1$, $c=10^{-n}$ con $n=1,2,3,...$).

9) La [suma de Kajan](https://en.wikipedia.org/wiki/Kahan_summation_algorithm) es un método numérico que reduce significativamente el error cuando se suman cantidades pequeñas con grandes en un arrego o lista de números tipo flotante. a) Implimente la suma de Kajan dada por el seudocódigo,
```c
function KahanSum(input)  // input is an array of dimension N.
    sum = 0.0             // Prepare the accumulator.
    c = 0.0               // A running compensation for lost low-order bits.
    for i = 1 to N do     // The array input has elements indexed input[1] to input[N].
        y = input[i] - c  // c is zero the first time around.
        t = sum + y       // sum is big, y small, so low-order digits of y are lost.
        c = (t - sum) - y // (t - sum) cancels the high-order part of y; subtracting y recovers negative (low part of y)
        sum = t           // Algebraically, c should always be zero. Beware overly-aggressive optimizing compilers!
    next i                // Next time around, the lost low part will be added to y in a fresh attempt.
    return sum
```  
b) Verifique que si `eps=1.1102230246251565e-16`, 
```c
(1.0 + eps) - eps da 0.9999999999999999
```
pero la suma de Kajam da 1.0 (encuentre el `eps` de su computador y pruebe).<br>
c) Muestre que si $a, b, c$ son $10000.0, 3.14159, 2.71828$, entonces $(a + b) + c$ da el valor $10005.8$ pero al suma de Kajam da el valor más preciso $10005.9$. (Nota, para ver esta diferencia necesitará trabajar con solo 6 cifras significativas en python3, para ello use,
```python
>>> from decimal import *
>>> getcontext().prec = 6
>>> a, b, c = [Decimal(n) for n in '10000.0 3.14159 2.71828'.split()]
```
10) Cuando en python se ejecuta el arreglo,
```python
np.array([1., 10**100, 1., -10**100]).sum() da 0.0
```
pero una simple impección del arreglo muestra que el resultado correcto es 2.0. Muestre que la suma de Kahan falla pero el algoritmo de *Neumaier* da el resultado correcto:

```c
function NeumaierSum(input)           // input is an array of dimension N.
    sum = 0.0
    c = 0.0                           // A running compensation for lost low-order bits.
    for i = 1 to N do
        t = sum + input[i]
        if |sum| >= |input[i]| then
            c += (sum - t) + input[i] // If sum is bigger, low-order digits of input[i] are lost.
        else
            c += (input[i] - t) + sum // Else low-order digits of sum are lost
        endif
        sum = t
    next i
    return sum + c                    // Correction only applied once in the very end
```

11) La fórmula de Arquímedes aproxima el número $\pi$ mediante el cálculo de perimetros inscritos en un círculo como,

$$
\pi \sim 6t_{i}2^{i} 
$$, 

con, $i=0,1, ...,n,$ donde, 

$$
t_{i+1}=\frac{{\sqrt {t_{i}^{2}+1}}-1}{t_{i}}.
$$

a) Muestre que $t_{i+1}$ se puede reescribir como,

$$
t_{i+1}=\frac{t_{i}}{{\sqrt {t_{i}^{2}+1}}+1}.
$$

b) Para $n=30$ y $t_{0}={\frac{1}{\sqrt{3}}}$ compare las dos fórmulas ¿cuál es más precisa? Grafique el error relativo y explique porque una es más precisa que la otra (use como valor téorico $\pi= 3.14159265358979323846$).


**Bibliografía**:

Libro Landau, Páez "*A Survey of
Computational Physics
Introductory Computational Science*", cap 1,2.

Libro Burden, *Numerical Analysis. cap 1.*

https://ece.uwaterloo.ca/~dwharder/NumericalAnalysis/02Numerics/Weaknesses/

https://en.wikipedia.org/wiki/Loss_of_significance

https://en.wikipedia.org/wiki/Floating-point_arithmetic#Floating-point_arithmetic_operations