# Aritmética en la computadora 1

Los *números de punto flotante* son una aproximación de los números reales en la computadora. El ejemplo más usado, mas no el único, corresponde a los `Float64`.

La idea de este notebook es entender qué son los números de punto flotante, y concientizarnos de que el conjunto de los números de punto flotante no corresponde a $\mathbb{R}$. De pasada, ensayaremos crear estructuras moldeadas a nuestro gusto/necesidad.

# Números enteros

Los humanos solemos utilizar base 10 para representar los números.

**[1]** ¿Por qué crees que nos es natural usar base 10?

Yo creo que es natural ya que aprendimos a contar con los dedos de las manos y justo ese pudo ser la base de nuestro sistema de conteo


In [1]:
using Base.Test

**[2]** 

(i) Explorando la función `bits()` usada con enteros, ¿cómo se representa en binario el número entero más grande de 64 bits? Escríbelo en base 10 y comprueba el resultado.



Consultemos la función `bits()`

In [2]:
?bits

search: [1mb[22m[1mi[22m[1mt[22m[1ms[22m is[1mb[22m[1mi[22m[1mt[22m[1ms[22m flip[1mb[22m[1mi[22m[1mt[22m[1ms[22m! [1mb[22m[1mi[22m[1mt[22mbroadca[1ms[22mt detect_am[1mb[22m[1mi[22mgui[1mt[22mie[1ms[22m [1mb[22m[1mi[22m[1mt[22mrand [1mB[22m[1mi[22m[1mt[22mArray



```
bits(n)
```

A string giving the literal bit representation of a number.

```jldoctest
julia> bits(4)
"0000000000000000000000000000000000000000000000000000000000000100"

julia> bits(2.2)
"0100000000000001100110011001100110011001100110011001100110011010"
```


Probemos la función `bits()` con un entero como se muestra en el ejemplo

In [3]:
bits(10)

"0000000000000000000000000000000000000000000000000000000000001010"

Vemos que los últimos cuatro dígitos de la cadena que regresa `bits` es número diez escrito en base dos, esto es;

$$ (1010)_{2} = 1 \times 2 ^{3} + 0 \times 2 ^{2} + 1 \times 2 ^{1} + 0 \times 2 ^{0} = 8 + 0 + 2 + 0 = (10)_{10}  $$


El número entero más grande de 64 bits sería ocupar los 64 lugares con unos, pero si consideramos el signo (pensando a cero como más) en el primer lugar entoces tendríamos sólo 63 lugares para ocupar con unos, por lo que el entero más grande que podemos escribir es;

$$(01111111111111111111111111111111111111111111111111111111111111)_{2}$$

y esto es base diez es:

$$9223372036854775807$$

Veamos que es cierto usando la función bits

In [4]:
bits(9223372036854775807)

"0111111111111111111111111111111111111111111111111111111111111111"

(ii) ¿Y el número entero más pequeño?

Para esto veamos como se ven los enteros negativos incluyendo el cero

In [5]:
bits(0)

"0000000000000000000000000000000000000000000000000000000000000000"

Vemos que el cero se representa como la cadena ceros

In [6]:
bits(-1)

"1111111111111111111111111111111111111111111111111111111111111111"

In [7]:
bits(-2)

"1111111111111111111111111111111111111111111111111111111111111110"

In [8]:
bits(-3)

"1111111111111111111111111111111111111111111111111111111111111101"

In [9]:
bits(-4)

"1111111111111111111111111111111111111111111111111111111111111100"

In [10]:
a = bits(-10)

"1111111111111111111111111111111111111111111111111111111111110110"

Vemos que para representar a los negativos se usa la siguiente regla $C_{2}^{N}=2^{n}-N$ donde $N$ es el número que se quiere representar en binario y $n$ los lugares dispobles para su representación, hagamos el elemplo para representar a $(-10)_{10}= (0000000000000000000000000000000000000000000000000000000000001010)_2 = N$ recordando que el primer dígito es el signo. Por lo tanto tenemos que $C_{2}^{N}=2^{63} - 10 = 9223372036854775798 = 1111111111111111111111111111111111111111111111111111111111110110 $ 

In [11]:
2^63 - 10

9223372036854775798

Representando esto en binario tenemos

In [12]:
b = bits(9223372036854775798)

"0111111111111111111111111111111111111111111111111111111111110110"

Observamos que `a` coincide con `b` módulo el primer  dígito que corresponde al signo. Ahora que entendimos como se generan los enteros negativos podemos conjeturar que el enteros más pequeño que se puede representar es $$(1000000000000000000000000000000000000000000000000000000000000000)_2 = (2^{63})_{10}$$ 



In [13]:
2^(63)  

-9223372036854775808

(iii) ¿Qué ocurre si al más grande le sumamos 1? ¿Qué sentido el resultado?

In [14]:
9223372036854775807 + 1

-9223372036854775808

Nos genera entero más pequeño y esto por que el número más grande que se puede escribir se puede representar como 63 unos y al sumarle 1, el resultado será un uno seguido de 63 ceros 

In [15]:
bits(-9223372036854775808)

"1000000000000000000000000000000000000000000000000000000000000000"

In [16]:
9223372036854775807 + 1

-9223372036854775808

Que corresponde al primer lugar 1 y el resto ceros, veamos que esto es cierto usando `bist()`

(iv) Checa tus reasultados con las funciones `typemax` y `typemin`

Revismos cómo funcionas dichas funciones

In [17]:
?typemax

search: [1mt[22m[1my[22m[1mp[22m[1me[22m[1mm[22m[1ma[22m[1mx[22m [1mT[22m[1my[22m[1mp[22m[1me[22m[1mM[22m[1ma[22mpLevel [1mT[22m[1my[22m[1mp[22m[1me[22m[1mM[22m[1ma[22mpEntry [1mt[22m[1my[22m[1mp[22m[1me[22m[1mm[22min [1mT[22m[1my[22m[1mp[22m[1me[22mNa[1mm[22me



```
typemax(T)
```

The highest value representable by the given (real) numeric `DataType`.


In [18]:
typemax(Int64) 

9223372036854775807

Vemos que `typemax(Int64)` regresa el entero más grande, el cual ya habiamos calculado, ahora veamos la función `typemin()`

In [19]:
typemin(Int64)

-9223372036854775808

Vemos que `typemin(Int64)` regresa en entero más pequeño

El problema obvio en representar los números reales es que éstos son infinitos no numerables, y tenemos recursos (memoria y tiempo) finitos.

## Aritmética de punto fijo

Una alternativa sencilla para representar números reales es, simplemente, considerar *algunos* racionales en el intervalo $[0,1)$, y usar cocientes entre dos números enteros positivos. Para explotar al máximo los 64-bits, podemos usar `n :: UInt64` como el numerador, y `m = typemax(UInt64)` como denominador, para esto. Estos son los llamados *números de punto fijo*.

Esto, de facto, permite escribir un número $x\in [0,1)$ como

$$
x = \frac{n}{m} = (0.a_1\,a_2\ldots a_n)_{(2)} = \sum_{i=1}^n a_i \, 2^{-i},
$$

donde todo $a_i \in \{0, 1\}$.

Probemos los operadores que se mencionan

In [20]:
UInt64(5)

0x0000000000000005

In [21]:
typemax(UInt64)

0xffffffffffffffff

In [22]:
a = UInt64(5)/typemax(UInt64)

2.710505431213761e-19

In [23]:
typeof(a)

Float64

Vemos que la salida del operador es un flotante 

**[3]**

(i) Si `x` es un `Float64`, escribe la función `nptofijo(x::Float64)` que permita representar a `x` como un `UInt64` que equivale al número de punto fijo.

In [24]:
function nptofijo(x::Float64)
    return typemax(UInt64)*x 
end

nptofijo (generic function with 1 method)

Probemos la función que acabamos de generar

In [25]:
nptofijo(0.99)

1.8262276632972456e19

In [26]:
nptofijo(3.9)

7.194230188746725e19

(ii) Si `y :: UInt64` es un número de punto fijo, su representación como un `Float64` será simplemente `y / typemax(UInt64)`. Muestra que la función escrita en (i) es consistente.

Para mostrar lo anterior generemos la representación de un `UInt64` y el resultado evaluemoslo en la función `npfijo()`

In [27]:
a = UInt64(5)/typemax(UInt64)

2.710505431213761e-19

In [28]:
typeof(a)

Float64

In [29]:
nptofijo(a)

5.0

Vemos que efectivamente la función `nptofijo()` es consistente

(iii) Dado que la aritmética para `UInt64` está definida, verifica la consistencia de algunas operaciones.

Esto lo podemos verificar realizando varias `test`

In [30]:
@testset "Pruebas UInt64" begin
    @test UInt64(5) + UInt64(3) == UInt64(8)
    @test UInt64(5) + 3 == UInt64(8)
    @test 5 + UInt64(3) == UInt64(8)
    @test UInt64(5) + UInt64(3) == 8
    @test UInt64(5) + 3.0 == UInt64(8)
    @test UInt64(5) + 3.0 == 8.0
    @test UInt64(5) + 3.1 == 8.1
    
    
    @test UInt64(5) * UInt64(3) == UInt64(15)
    @test UInt64(5) * 3 == UInt64(15)
    @test 5 * UInt64(3) == UInt64(15)
    @test UInt64(5) * UInt64(3) == 15
    @test UInt64(5) * 3.0 == UInt64(15)
    @test UInt64(5) * 3.0 == 15.0
    #@test UInt64(-5) * 3.1 == 15.5
    @test - UInt64(5) + 8 == 3
end

# Faltan restas y divisones

[1m[37mTest Summary:  | [39m[22m[1m[32mPass  [39m[22m[1m[36mTotal[39m[22m
Pruebas UInt64 | [32m  14  [39m[36m   14[39m


Base.Test.DefaultTestSet("Pruebas UInt64", Any[], 14, false)

(iv) ¿Qué limitación tiene esta manera de representar los números?

La limitación es que no hay `UInt` de enteros negativos debido a su naturaleza de definición

## Representación de los números reales

Cuaquier número real $x\in \mathbb{R}$ lo podemos *representar* como

$$
x = (-1)^\sigma \sum_{k=-\infty}^n b_k \,\beta^k, 
$$

donde $0 \le b_k \le \beta -1$, para toda k. Aquí, $\sigma=0,1$ define el signo del número en cuestión, y $\beta=2, 3, ...$ es un entero mayor que 1 que define la *base* en que representamos el número (e.g., base 2, base 8, base 10, etc).


Las sutilezas usuales de los ceros a la izquierda, que simplemente se omiten, o las colas infinitas de $\beta-1$ se aplican aquí, como por ejemplo $0.1999999\dots_{(10)}=0.2_{(10)}$. Esta última se soluciona pidiendo que (a) $0 \le b_k \le \beta -1$, y (b) $0 \le b_k \le \beta -2$ para un número infinito de $k$.

## Números de punto flotante

Una representación conveniente de los números reales en la computadora es la siguiente:

$$
x = (-1)^\sigma \cdot s \cdot \beta^r, 
$$

donde $\sigma$ define el signo nuevamente, $\beta$ es la base de la representación, $r$ es un exponente (número entero) y $s$, el *significante* (o mantisa), es un número real positivo (o cero).

El significante es un número (real y positivo) que por convención representamos como
$$
s = b_0 . b_{-1} b_{-2} b_{-3} \dots,
$$
donde cada "dígito" $b_{k}$ cumple $ 0\le b_k \le \beta - 1$ para todo $k$, y $ 0\le b_k \le \beta - 2$ para infinitas $k$.

Ejemplos:

\begin{eqnarray}
-0.5 = (-1)^1 \cdot 1.0 \cdot 2^{-1} = 0.1_{(2)} & \quad \Longrightarrow \quad&  \sigma = 1, \beta=2, r = -1, s = 1.0,\\
2/3 = (-1)^0 \cdot 2.0 \cdot 3^{-1} = 0.2_{(3)}& \quad \Longrightarrow \quad&  \sigma = 0, \beta=3, r = -1, s = 2.0,\\
30.1 = (-1)^0 \cdot 0.301 \cdot 10^{2} & \quad \Longrightarrow \quad&  \sigma = 0, \beta=10, r = 2, s = 0.301
\end{eqnarray}

**[4]** La representación descrita arriba es *obviamente* **no** única e introduce otro tipo de redundancias. Da dos ejemplos de representaciones distintas de un mismo número en base 10.

* $150 = 15\times10^{1}$
* $150 = 1.5\times10^{2}$

**[5]** Escribe la representación de $0.1_{(10)}$ en binario. (Procura no restringirte a 64 bits!) Restringiéndonos a 64 bits, como interpretas el resultado que arroja `BigFloat(0.1)`.

|Escribiremos a  $(0.1)_{10}$ | en base $2$, como se muestra| 
| -------------   | ------------- |
|$(0.1)*2 = 0.2 $ | $ [0.2] = 0 $ |
|$(0.2)*2 = 0.4 $ | $ [0.4] = 0 $ |
|$(0.4)*2 = 0.8 $ | $ [0.8] = 0 $ |
|$(0.8)*2 = 1.6 $ | $ [1.6] = 1 $ |
|$(0.6)*2 = 1.2 $ | $ [1.2] = 1 $ |
|$(0.2)*4 = 0.8 $ | $ [0.8] = 0 $ |
|$(0.4)*2 = 0.8 $ | $ [0.8] = 0 $ |
|$(0.8)*2 = 1.6 $ | $ [1.6] = 1 $ |
|$(0.6)*2 = 1.2 $ | $ [1.2] = 1 $ |
|$(0.2)*4 = 0.8 $ | $ [0.8] = 0 $ |

De la tabla podemos observar que $0.1$ tiene una representación no finita en base $2$
$$0.1_{(10)}= \dfrac{1}{10}=(1.10011001100110011 \dots)_{2} \times 2 ^{-4}$$






In [31]:
BigFloat(0.1)

1.000000000000000055511151231257827021181583404541015625000000000000000000000000e-01

Vemos que `BigFloat` nos muestra el contenido "real" de $0.1$ lo cual observamos que hay basura numérica.

Una manera de resolver el problema de la representación única es *imponer* que el significante $s$ (distinto de cero) sea tal que $b_0 \neq 0$. De esta manera, el último ejemplo quedaría:

$$
30.1 = (-1)^0 \cdot 3.01 \cdot 10^{1} \quad \Longrightarrow \quad  \sigma = 0, \beta=10, r = 1, s = 3.01
$$

Esto define al conjunto de números *normales* de punto flotante en base $\beta$, $\mathbb{F}_\beta$.

**[6]** El cero, como siempre, es especial. ¿Por qué? ¿Cuál es una convención adecuada para representarlo?

Aquí tenemos muchas representacione para el cero, si sólo hacemos la mantisa cero, por otro lado lo podemos convenir al cero como $(0000000000000000000000000000000000000000000000000000000000000000)_{2}$. Veamos esto con la función `bits()` 

In [32]:
a = bits(0.0)

"0000000000000000000000000000000000000000000000000000000000000000"

Vemos si esto es consistente, para ello usemos `reinterpret` y `parse`

In [33]:
reinterpret(Int64,parse(a))

0

Ahora veamos que pasa con $-0.0$

In [34]:
b=bits(-0.0)

"1000000000000000000000000000000000000000000000000000000000000000"

Vemos que al inicio de la representación se tiene un *uno* debido al signo

In [35]:
0.0 == -0.0

true

Vemos que para Julia menos cero es igual a cero

In [36]:
0.0 === -0.0

false

Pero internamente son diferente, debido al *uno* que ya mencionamos

## Representación en la computadora

En la computadora, no podemos representar **todos** los números reales: se trata de un conjunto no numerable, y la memoria es finita.

Debemos entonces limitar la precisión con la que trabajamos, por ejemplo, limitando el número de dígitos significativos de la mantisa. Esto genera el conjunto de elementos $\mathbb{F}_{\beta,p}$ cuyo significante escribiremos como

$$
s = b_0 . b_{1} b_{2} b_{3} \dots b_{p-1},
$$

donde $b_0\neq 0$, y $0 \le b_i \le \beta-1$ para $i=1,..., p-1$. El entero $p$ es la precisión.

**[7]** ¿Por qué es cierta la afirmación de que $\mathbb{F}_{\beta,p}$ es un conjunto *infinito* numerable?



Por ejemplo, los `Float64` usan 64 bits, están definidos en base $\beta=2$, y los bits disponibles se ordenan de la siguiente manera:

- 1 bit: $\sigma$
- 11 bits: $r$
- 52 bits: $s$

NOTA: Dado que los números de punto flotante se definen con $b_0\ne 0$, en el caso de $\beta =2$ tenemos que $b_0=1$ para estos números. Esto permite omitir este bit, y ganar uno más. Es por eso que `Float64` corresponde a 53-bits.

Una manera de generar un número finito de elementos (¡tenemos memoria finita en la computadora!) es imponiendo *además* cotas para los posibles exponentes, es decir, $r_{min} \le r \le r_{max}$.

**[8]** 

(i) Usando la representación en base 2 de `1.0` y `0.5` exacta, `bits(1.0)`, `bits(0.5)`, `parse(Int, x, 2)` y un poco de intuición(!), obtén una definición de la implementación de $r$ en la computadora.

(ii) ¿Cuales son las cotas para $r$ en `Float64`?

(iii) ¿Cuántos bits se usan para $r$ para `Float32` y cuales son las cotas?

(i) Usando la representación en base 2 de `1.0` y `0.5` exacta, `bits(1.0)`, `bits(0.5)`, `parse(Int, x, 2)` y un poco de intuición(!), obtén una definición de la implementación de $r$ en la computadora.

In [37]:
bits(0.1)

"0011111110111001100110011001100110011001100110011001100110011010"

In [38]:
parse(Int64,"01111111011",2)

1019

Sabemos que el primer lugar está asignado para el signo, los siguientes 11 lugares están a cargo de exponente que representa al número y el resto 52 lugares son deisgnados a la mantisa.

sabemos que $(0.1)_{10} (1.10011001100110011 \dots)_{2} \times 2 ^{-4}$, donde observamos lo siguiente

* El signo es positivo por lo que conindide con el primer cero
* Los siguientes once lugares es el exponente que corresponde a $(01111111011)_2 = (1019)_{10}$ el cual correspponde al exponente $-4$
* El resrto $1001100110011001100110011001100110011001100110011010$ corresponde precisamente a la manisa normalizada

Ahora hagamos los mismo para $(0.5)_{10} = 1.0 \times 2 ^{1} $

In [39]:
bits(0.5)

"0011111111100000000000000000000000000000000000000000000000000000"

In [40]:
parse(Int64,"01111111111",2)

1023

Vemos de nuevo que:
* El cero corresponde al signo
* Además $(01111111111)_{2} = (1023)_{10}$ que corresponde a $1$
* Y el resto que es $00000000000000000000000000000000000000000000000000000$ corresponde a la mantisa normalizada

**Coclusión** existe un cesgo de $1023$ en la representación del exponente

(ii) ¿Cuales son las cotas para $r$ en `Float64`?

Las cotas para $r$, $0 = (01111111111)_2 = 1023$ $r_{min} = (0000000000)_{2} = 0 _{10}-1023_{10}$ $r_{max} = 11111111111_{2} = 2046 - 1023 = (1023)_{10}$

**Nota** Los $11$ lugares del exponente de unos se reservan para el `Inf`

(iii) ¿Cuántos bits se usan para $r$ para `Float32` y cuales son las cotas?

In [41]:
b = Float32(1.0)

1.0f0

In [42]:
bits(b)

"00111111100000000000000000000000"

In [43]:
parse(Int32,"01111111",2)

127

In [44]:
255-127

128

Las cotas para $r$, en `Float32` son, $0 = (01111111)_2 = 127$ $r_{min} = (0000000)_{2} = 0 _{10}-127_{10}$ $r_{max} = 11111111_{2} = 254 - 127 = (127)_{10}$

# `MiNormFloat`

**[9]** 

(i) Define las constantes prec = 3, rmin = -1, rmax = 2. (Ser constante en julia significa que el tipo no puede cambiar, aunque posiblemente puede cambiar el valor; ver la ayuda para const.)


In [45]:
?const

search: [1mc[22m[1mo[22m[1mn[22m[1ms[22m[1mt[22m is[1mc[22m[1mo[22m[1mn[22m[1ms[22m[1mt[22m [1mc[22m[1mo[22m[1mn[22m[1ms[22mume [1mc[22m[1mo[22m[1mn[22md[1ms[22mkeel [1mc[22m[1mo[22m[1mn[22mtain[1ms[22m [1mc[22m[1mo[22mu[1mn[22mtline[1ms[22m [1mc[22m[1mo[22mu[1mn[22mt_one[1ms[22m



`const` is used to declare global variables which are also constant. In almost all code (and particularly performance sensitive code) global variables should be declared constant in this way.

```
const x = 5
```

Note that "constant-ness" is not enforced inside containers, so if `x` is an array or dictionary (for example) you can still add and remove elements.

Technically, you can even redefine `const` variables, although this will generate a warning from the compiler. The only strict requirement is that the *type* of the variable does not change, which is why `const` variables are much faster than regular globals.


In [46]:
const prec = 3
const rmin = -1
const rmax = 2

2

(ii) Define la estructura `MiNormFloat` cuyos campos sean:
- `base :: Int`, la base ($\beta\ge 2$),

- `sigma :: Bool`, el signo (nota que `Int(true) = 1` y `Int(false)=0`),

- `expo :: Int`, el exponente (que debe cumplir `rmin ≤ expo ≤ rmax`, con `rmin` y `rmax` los enteros fijos que definiste,

- `mant :: NTuple{prec, Int}`, donde `prec` es el entero (pequeño) que definiste como precisión.

El tipo `MiNormFloat` debe tener un constructor interno para asegurar que **todas** las restricciones de los números de punto fijo se cumplan. Cualquier `MiNormFloat` debe corresponder a un número de punto flotante normal bien definido, o al cero. (Dado que la base es arbitraria, no podemos explotar el bit que se puede omitir si $\beta=2$.)

In [47]:
struct MiNormFloat 
    base ::Int
    sigma ::Bool
    expo ::Int
    mant ::NTuple{prec, Int}
    function MiNormFloat(base,sigma,expo,mant)
        @assert base >= 2 "Base tiene que ser mayor igual que dos" 
        for i in mant
            @assert i < base "Los elementos de la mantisa deben ser menores que la base"
        end
        @assert rmin <= expo  <= rmax "expo fuera de rango"
        
        new(base, sigma, expo, mant)
    end
end

Veamos que `MiNormFloat` está bien definido, veamos que si la base es menor que dos tenemos un error

In [48]:
MiNormFloat(1, true, 1, (0, 1,2)) 

LoadError: [91mAssertionError: Base tiene que ser mayor igual que dos[39m

Ahora revisemos que los elementos de la mantisa debe menor que la base

In [49]:
MiNormFloat(2, false, 1, (0, 1,2))

LoadError: [91mAssertionError: Los elementos de la mantisa deben ser menores que la base[39m

Veamos que el exponente está fuera de rango

In [50]:
MiNormFloat(2, true, -5, (0, 1,1))

LoadError: [91mAssertionError: expo fuera de rango[39m

In [51]:
MiNormFloat(2, true, -1, (0, 1,1))

MiNormFloat(2, true, -1, (0, 1, 1))

In [52]:
MiNormFloat(2, true, 1, (1, 1,1))

MiNormFloat(2, true, 1, (1, 1, 1))

(iii) Define varias pruebas y muestra que todo funciona adecuadamente.


Para ver que funcionan de manera correcta haremos un conjunto de Test, para ello revisemos las función `@test_throws`

In [53]:
?@test_throws

```
@test_throws extype ex
```

Tests that the expression `ex` throws an exception of type `extype`. Note that `@test_throws` does not support a trailing keyword form.


In [54]:
@testset "Test for MiNormFloat" begin
    @test_throws AssertionError MiNormFloat(2, true, 1, (0, 1,2))
    @test_throws AssertionError MiNormFloat(1, true, 1, (0, 1,1))
    @test_throws AssertionError MiNormFloat(1, true, -2, (0, 1,1)) 
end

[1m[37mTest Summary:        | [39m[22m[1m[32mPass  [39m[22m[1m[36mTotal[39m[22m
Test for MiNormFloat | [32m   3  [39m[36m    3[39m


Base.Test.DefaultTestSet("Test for MiNormFloat", Any[], 3, false)

**[10]** Escribe la función que convierta un número de tipo `MiNormFloat` a uno `Float64`. Define varias pruebas que muestren que la implementación es correcta.

In [64]:
function superFloat(x::MiNormFloat)
    if x.sigma 
        signo = -1
    else
        signo = 1
    end
    f = 0.0
    for i in 1:length(x.mant)
        f += (x.mant[i]/convert(Float64,x.base)^(i-1))*convert(Float64,x.base)^x.expo
    end
    f*signo
end

superFloat (generic function with 1 method)

Revisemos Nuestra nueva función `superFloat`, para ello consideremos:

* La base $\beta = 2$.
* El signo positivo $+$
* El exponente $E = 1$
* La mantisa $(1,1,1)$

Es decir 

$$ x = +\left( \dfrac{1}{2^0} + \dfrac{1}{2^1} + \dfrac{1}{2^2} \right)2^1 = \left( \dfrac{1}{1} + \dfrac{1}{2} + \dfrac{1}{4} \right)(2) = \left( \dfrac{7}{4} \right)(2) = \dfrac{7}{2} = 3.5$$

In [65]:
superFloat(MiNormFloat(2, false, 1, (1, 1,1)))

3.5

Ahora hagamos otra prueba con:

* La base $\beta = 2$.
* El signo positivo $-$
* El exponente $E = 2$
* La mantisa $(1,0,0)$

Es decir 

$$ x = -\left( \dfrac{1}{2^0} + \dfrac{0}{2^1} + \dfrac{0}{2^2} \right)2^2 = - \left( 1 + 0 + 0 \right)(4) = - \left( 1 \right)(4) = -4.0$$

In [66]:
superFloat(MiNormFloat(2, true, 2, (1, 0, 0)))

-4.0

**[11]** 

(i) Calcula *analíticamente* el número de elementos que tiene el conjunto de números de punto flotante normales, dados la precisión `p`, y los exponentes `rmin` y `rmax` (¡para cualquier $\beta$!).

Para ello recordemos como se ve un número de punto flotante. Formalmente, un sistema de punto flotante se caracteriza por cuatro números enteros:

* $\beta$ la base
* $p$ presición
* $[L,U]$ el mínimo y máximo de los exponentes

Por definición un número $x$ en el sistema de punto flotante es representado como:

\begin{equation}
x = \pm\left( d_0 + \frac{d_1}{\beta} + + \frac{d_2}{\beta ^2} + \cdots + \frac{d_{p-1}}{\beta ^{p-1}} \right) \beta^{e}
\end{equation}
donde $d_0\neq 0$, $0\leq d_i \leq \beta -1$ e $i= 0,\dots , p-1$

$L \leq e \leq U$

Un sistema numérico de punto flotante es finito y discreto. La cantidad de números de punto flotante normalizados es: 

\begin{equation}
2(\beta -1)\beta^{p-1}(U-L+1) + 1
\end{equation}

Obsevemos los siguiente:

* El número 2 de la expresión anterior corresponde al signo más y menos, por sin ese lugar todos lo números serían positivos
* El término $\beta - 1$ corresponde a la normalización de $d_0$, ya que este puede tomar valores de $0$ a $\beta -1$
* $\beta^{p-1}$ son los dígitos después del punto que toman valores de $0$ a $\beta -1$
* El término $(U-L+1)$ corresponde de la base al exponente
* Por último el $+1$ es el cero




(ii) ¿Cuales son los números reales que describe el conjunto de números de punto flotante normales para `prec = 3`, `rmin = -1` y `rmax = 2` con $\beta =2$ ? 

En nuestro caso tenemos que `p = prec = 3`, `L = rmin = -1` y  `U = rmax = 2`, es decir:

$$ 2(\beta -1)\beta^{3-1}(2-(-1)+1) + 1 = 2(\beta -1)\beta^{2}(4) + 1 $$

(iii) ¿Es homogéneo el espaciamiento entre los números de punto flotantes obtenidos en (ii)?

Depende del exponente, en general **no** es homogéneo, es decir serán homegénos todos aquellos números que pertenecen a  la misma potencias y el espaciamiento será $\frac{1}{\beta}$



(iv) Dibuja en una recta *todos* los números normales de punto flotante que definen estos parámetros, incluyendo el
cero. ¿Cómo es el espaciamiento en torno al cero?

Primero hagamos una función que generé las mantisas, dependiendo de la base y la presición

In [67]:
function generadordemantisa(b,p)
    tupla = []
    for i in 0:1 ## prec
        for j in 0:1 ## base
            for k in 0:1
                push!(tupla,(i,j,k))
            end
        end
    end
    tupla
end

generadordemantisa (generic function with 1 method)

Veamos que nuestra función genera las mantisas correspondientes

In [68]:
generadordemantisa(2,3)

8-element Array{Any,1}:
 (0, 0, 0)
 (0, 0, 1)
 (0, 1, 0)
 (0, 1, 1)
 (1, 0, 0)
 (1, 0, 1)
 (1, 1, 0)
 (1, 1, 1)

Vemos que la función `generadordemantisa` genera las matisas correspondiente e incluso las mantisas con el primer elemento igual a uno

Ahora escriba una rutina unsando **metaprogramming** genere todas las mantisas posibles de base $b$ y presición $p$, a esta función la llamaremos `gmbp` acronimo de *gemeradora de mantisa de base b y presición p*

In [69]:
function gmbp(b,p)

    b1 = b-1
    str = "tuplab = []; for i in 0:$b1"
    for j in 1:p-1
        str *= ", j$j in 0:$b1"
        
    end
    str *= " push!($(:tuplab),(i"
    for j in 1:p-1
        str *= ", j$j"
    end
    str *= "))"
    str *= " end"
    
    expr = parse(str)
    @show expr
    eval(expr)
end

gmbp (generic function with 1 method)

In [70]:
a = gmbp(2,3)

expr = :($(Expr(:toplevel, :(tuplab = []), :(for i = 0:1, j1 = 0:1, j2 = 0:1 # none, line 1:
        push!(tuplab, (i, j1, j2))
    end))))


`gmbp` pregresa una lista de nombre `tuplab` con todas las posibles mantisas

In [71]:
tuplab

8-element Array{Any,1}:
 (0, 0, 0)
 (0, 0, 1)
 (0, 1, 0)
 (0, 1, 1)
 (1, 0, 0)
 (1, 0, 1)
 (1, 1, 0)
 (1, 1, 1)

Ahora hagamos una rituna que genere un arreglo con los posible números de punto flotante

In [72]:
#for j = -rmin:rmax
x = []
for  j in rmin:rmax, i in false:true
    mantisas = generadordemantisa(2,3)
    for mantisa in mantisas
        y = superFloat(MiNormFloat(2,i,j,mantisa)) 
        push!(x,y)
    end
        
end
#end

In [73]:

for i in x
    println(i)
end

0.0
0.125
0.25
0.375
0.5
0.625
0.75
0.875
-0.0
-0.125
-0.25
-0.375
-0.5
-0.625
-0.75
-0.875
0.0
0.25
0.5
0.75
1.0
1.25
1.5
1.75
-0.0
-0.25
-0.5
-0.75
-1.0
-1.25
-1.5
-1.75
0.0
0.5
1.0
1.5
2.0
2.5
3.0
3.5
-0.0
-0.5
-1.0
-1.5
-2.0
-2.5
-3.0
-3.5
0.0
1.0
2.0
3.0
4.0
5.0
6.0
7.0
-0.0
-1.0
-2.0
-3.0
-4.0
-5.0
-6.0
-7.0


In [74]:
using Plots, LaTeXStrings

In [75]:
y = zeros(length(x))

64-element Array{Float64,1}:
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 ⋮  
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0
 0.0

In [76]:
scatter(x, y, ms=3.0, lab="números de maquina",ylim=(-0.5,0.5))
vline!(x,line=(1,:dash),color=[:blue :orange])

**[12]** La suma de elementos tipo `Mifloat`, ¿da siempre un elemento tipo `Mifloat`? Argumenta con uno o varios ejemplos.


No siempre pues en nuestro pequeño ejemplo; 
* Si sumamos $3.0 + 3.5$ no tenemos es nuestro generador el $6.5$
* Si sumamis $2.0 + 2.5$ no tenemos es nuestro generador el $4.5$ 
* Tampoco está la sumas de $7.0 + 1.0$


# Números subnormales

Una manera de hacer que el espaciamiento entre el 0 y el primer número de punto flotante normal no sea tan grande, es introduciendo los llamados *números subnormales*. Éstos se definen permitiendo que $b_0=0$ únicamente con $r = r_{min}$.

Esto ya lo hicimos en el nootebook cuando permitimos que el elemento de la mantisa fuera *cero*

**[13]** 

(i) Crea el tipo `MiFloat` que incluya a los números de punto flotante normales y subnormales dados `prec`, `rmin` y `rmax`.

(ii) Para `prec=3`, `rmin=-1`, `rmax=2` dibuja todos los números de punto flotante. ¿Como es el espaciamiento ahora cerca del cero?

(iii) ¿Es cerrada la suma del conjunto de números de punto flotante normales y subnormales?


# Resumen

**[14]** Escribe un resumen de lo visto en este notebook.

Lo que se puede resumir de este notebook es lo siguinte:

* Los número de punto flotante son finitos además estos números de punto flotante no se distribuyen uniformemente a lo largo de su dominio, sino que están equiespaciados solo entre las potencias sucesivas de $\beta$. No todos los números reales son exactamente representables en un sistema de punto flotante. Los números reales que son exactamente representables en un sistema de punto flotante dado a veces se llaman números de máquina.



* La cantidad de números de punto flotante dada una base, presición, límites de los exponentes e incluyendo el signo son: $$2(\beta -1)\beta^{p-1}(U-L+1) + 1$$ 
* Existe un número más pequeño que se puede representar con el esquema de normalización de punto flotate y este se conoce como:

Underflow level = UFL = $\beta^L$, es decir, $x = \left( d_0 + \frac{d_1}{\beta} +  \frac{d_2}{\beta ^2} + \cdots + \frac{d_{p-1}}{\beta ^{p-1}} \right) \beta^{e}$, tomamos $d_i = 0, \forall i = 1,\dots,p-1$, entonces

$x_{mím} = \left( d_0  \right) \beta^{e}$, pero $d_0=1$ y el exponente más pequeño es $e =L$, por lo que se tiene:

$x = \beta^{L}$

* Y el número más grande en la representación de punto flotante es:

Overflow level = OFL = $\beta^{U+1}(1-\beta^{-p})$

$x_{máx} = \left( \beta -1 + \frac{\beta -1}{\beta} +  \frac{\beta -1}{\beta ^2} + \cdots + \frac{\beta -1}{\beta ^{p-1}} \right) \beta^{U} = (\beta -1)\left( 1 + \frac{1}{\beta} +  \frac{1}{\beta ^2} + \cdots + \frac{1}{\beta ^{p-1}} \right) \beta^{U} = (\beta -1) \displaystyle \sum _{i=0} ^{p-1} \frac{1}{\beta^{i}} \beta^{U}= (\beta -1) \left(\dfrac{1-\frac{1}{\beta^p}}{1- \frac{1}{\beta}}\right) \beta^{U} = (\beta -1) \left(\dfrac{\frac{1-\beta ^{-p}}{1}}{\frac{\beta -1}{\beta}}\right) \beta^{U} = (1-\beta^{-p})\beta^{U+1} $

* En un sistema de punto flotante con 64 lugares representado en base $2$ normalizado es de la forma;    ($x=\pm(1.b_1b_2...b_{63}b_{64})\times 2^E$), si lo representamos en sus 64 lugares tenemos <font color=blue>0</font> <font color=green>00000000000</font> <font color=red>00000000000000000000000000000000000000000000000000000</font> el primer lugar se usa para el signo del número cero si es positivo y uno si es negativo 

* Los siguientes once lugares son ocupados para el exponente, pero con un sesgo, este sesgo es tal que el valor de exponente $1023$ corresponde en realidad a exponente $1$, es decir, de $1023$ en adelante son exponente mayores a $1$ y menores a $1022$ son negativos

* El resto de los lugares corresponde a la mantisa normalizada, es decir, como la base es $2$ no se escribe el primer uno que se conoce como el bit escondido y sólo la espresión correspondiente después del punto
