# Tópicos avanzados de programación con Julia

## _IEEE 754_

### Temario para cubrir el objetivo 2

__Tratamiento de errores mediante la depuración, el testing y buenas prácticas de programación.__
- Representación de los reales en un equipo de cómputo.
  - Punto Fijo.
  - Punto Flotante (Notación científica).
  
- Representación de reales en el estándar IEEE 754.
  - Valores extremos normalizados.
  - Precisión, Epsilon de la máquina y upl.
  - Número de representantes en $\left[2^n, 2^{n+1}\right)$, error aboluto y relativo.
  - Números subnormales.
  - Ejemplo de algunas representaciones `Float64` en IEEE 754.
  - Conversión de binarios a `Float64`.
  - Conversión de `Float64` a binario.

## Representación de los reales en un equipo de cómputo

Los equipos de cómputo no trabajan con reales, sino con un conjunto finito que se puede representar como: 

$$\mathbb F=\overline{\mathbb R}/\sim\cup \left\{NaN\right\}$$

Donde $x\sim y$ si tienen la misma representación binaria (excepto el cero que tiene dos representaciones binarias) después de redondear.

La representación binaria tiene una cantidad finita de guarismos para almacenar la información. 

Por ejemplo, `Float64` cuenta con 64 guarismos que pueden tomar los valores 0 o 1.

Es por eso que $\mathbb F$ no sólo es discreto, sino finito.

Muchos errores semánticos consisten en suponer que los cálculos se realizan en $\mathbb R$, y no en $\mathbb F$.

Por ejemplo $0.0\sim 1.0\cdot 10^{-324}$, ya que:

In [None]:
println(bitstring(0.0))
println(bitstring(1.0e-324))
0.0 == 1.0e-324

$0.3\sim 0.30000000000000001$

In [None]:
println(bitstring(0.3))
println(bitstring(0.30000000000000001))
0.3 == 0.30000000000000001

La única exepciòn a la regla es que $0.0\sim -0.0$

In [None]:
println(bitstring(0.0))
println(bitstring(-0.0))
0.0 == -0.0

Es importante tener en cuenta que $\mathbb F$ no es un campo. Es más, ni siquiera es un semigrupo respecto a la suma y el producto:

In [None]:
x, y, z = 1e307, 17e307, 1e307
w1=(x+y)-z
w2=x+(y-z)
println(w1,"\n",w2)

### Punto Fijo

Al representar un número en punto fijo, estamos utilizando al punto como separador de la parte entera y la fraccionaria.

Por ejemplo en base 10

Num. Punto Fijo | signo | Parte entera | Parte fraccionaria
:-- | :-- | :-- | :--
$12.875$ | $+$ |$12$ | $875$
$-0.750$ | $-$ | $0$ | $750$

Los mismo números, pero en base 2

Num. Punto Fijo | signo | Parte entera | Parte fraccionaria
:-- | :-- | :-- | :--
$1100.111_2$ | $+$ | $1100_2$ | $111_2$
$-0.110_2$ | $-$ | $0_2$ | $110_2$

El signo se representa com $1$ si es positivo y con $0$ si no lo es. La tabla anterior quedaráia:

Num. Punto Fijo | signo | Parte entera | Parte fraccionaria
:-- | :-- | :-- | :--
$1100.111_2$ | $0$ | $1100_2$ | $111_2$
$-0.110_2$ | $1$ | $0_2$ | $110_2$

Para representar un punto fijo, se asigna un digito para el signo, $n$ dígitos para la parte entera y $m$ dígitos para la parte fraccioncociente de conjuntos latexaria. Si algún dígino no se utiliza, entonces se rellena con ceros.

Por ejemplo, supongamos que en el ejemplo anterior, se tine un dígito para el signo, 4 para la parte entera y 4 para la fraccionaria, entonces la tabla quedaría:

Num. Punto FijoNum | signo | Parte entera | Parte fraccionaria
:-- | :-- | :-- | :--
$011001110$ | $0$ | $1100$ | $1110$
$100001100$ | $1$ | $0000$ | $1100$

En este tipo de representación el error absoluto que se comete por redondeo (al más cercano) está acotado por $2^{-m-1}$. El error relativo varía según aumenta o disminuye el valor absoluto del número. Esto es una consecuencia de que entre dos potencias consecutivas de la base hay más representantes mientras mayor es el esponente.

Debido a lo anterior, la cantidad de memoria necesaria aumenta a medida que necesitamos trabajar con potencias de dos, que tengan exponentes más grandes (en valor absoluto).

In [None]:
"""
Cambia la base de un entero decimal a entero binario.
"""
function EntABin(x::Int)
    bin_ent=[] #Almacena el los digitos binarios.
    xaux=x
    dr=(xaux,0) #división entera y resto inicial.
    while xaux > 1
        dr=divrem(xaux,2) #división entera y resto.
        push!(bin_ent, Int(dr[2]))
        xaux=dr[1]
    end
    push!(bin_ent, Int(dr[1]))
    reverse(bin_ent)
end

"""
Cambia la base de la mantisa decimal a la mantisa binario.
El valor no se redondea al más cercano, sino al menor más cercano.
"""
function MantBin(x::Float64, n::Int)
    bin_mant=[]
    #Sólo necesitamos la mantisa.
    xaux=BigFloat(string(x))%big"1.0" #Se tabaja con Big, para evitar errores de redondeo en los cálculos.
    for i in 1:n
        xaux*=big"2.0"
        dr=divrem(xaux, big"1.0")
        push!(bin_mant, Int(dr[1])) #Se añade la parte entera convertida a entero (0 o 1).
        xaux=dr[2] #Sólo nos quedamos con la parte fraccionaria, para repetir el proceso.
    end
    return bin_mant
end

"""
Convierte un Float64 a binario de punto fijo.
n_e es el número de dígitos para la parte entera incluyendo el signo.
n_m es el número de díginos para la mantisa.
El valor no se redondea al más cercano, sino al menor más cercano.
"""
function PuntoFijoBin(x::Float64, n_e::Int, n_m::Int)
    xaux=BigFloat(string(x))
    bin_ent, bin_mant = [], []
    
    #se obntiene la parte entera, sin signo y sin completar los ceros.
    parte_ent = xaux ÷ big"1.0"
    bin_ent=EntABin(Int(abs(parte_ent)))
    n_be = length(bin_ent)
    
    # n_be debe ser menor a n_e porque falta el signo.
    if n_be >= n_e
        println("La parte entera es demasicado grande.")
        return
    end
    
    #Completamos los ceros faltantes
    while n_be < n_e-1
        pushfirst!(bin_ent, 0)
        n_be = length(bin_ent)
    end
    
    #Añadimos el signo.
    if string(x)[1]=='-'
        pushfirst!(bin_ent, 1)
    else
        pushfirst!(bin_ent, 0)
    end
    
    #Obtenemos la mantisa.
    bin_mant=MantBin(abs(x), n_m)
    
    return [bin_ent, bin_mant]
end

"""
Imprime el número binario obtenido por PuntoFijoBin.
El signo se dibuja en azul, la pare entera en verde y la mantisa en rojo.
"""
function ImprimirPF(x::Float64, n_e::Int, n_m::Int)
    bin=PuntoFijoBin(x, n_e, n_m)
    parte_ent=join(string.(bin[1]))
    parte_frac=join(string.(bin[2]))
    printstyled(parte_ent[1]; color = :blue)
    printstyled(parte_ent[2:end]; color = :green)
    printstyled(parte_frac,"\n"; color = :red)
end

In [None]:
PuntoFijoBin(12.875,5,4)

In [None]:
PuntoFijoBin(-0.750,5,4)

In [None]:
ImprimirPF(12.875,5,4)
ImprimirPF(-0.750,5,4)

### Punto Flotante (Notación científica)

Dada una base $B$, todo número real están contenido entre dos potencias consecutivas de esa base. La representación en punto flotante, expresa al real en términos de la pontencia menor.

Si $x\in \left[B^n, B^{n+1}\right)$, $n\in \mathbb Z$ entonces $x=x_0\cdot B^n$, donde $x_0 \in \left[1, B \right)$ y $x_0$ tiene una parte entera y una parte fraccionaria.

Por ejemplo en base 10

Num. Punto Fijo | Num. Punto Flot. | signo | Exponente | Parte entera | Parte fraccionaria
:-- | :-- | :-- | :-- | :-- | :--
$12.875$ | $1.2875\cdot 10^1$ | $+$ | $1$ | $1$ | $2875$
$-0.750$ | $-7.5\cdot 10^{-1}$ | $-$ | $-1$ | $7$ | $5$

Los mismo números, pero en base 2

Num. Punto Fijo | &nbsp;&nbsp;&nbsp;&nbsp;Num. Punto Flot. | signo | Exponente | Parte entera | Parte fraccionaria
:-- | :-- | :-- | :-- | :-- | :--
$1100.111_2$ | $1.100111_2\cdot 10^{11_2}_2$ | $+$ | $11_2$ | $1_2$ | $100111_2$
$-0.11_2$ | $1.1_2\cdot 10^{-1_2}_2$ | $-$ | $-1_2$ | $1_2$ | $1_2$

Si cumple que $x_0 \in \left[1, B \right)$ y $x_0$, entonces el número está normalizado. En caso contrario se dice que es subnormal.

Por ejemplo si $x_0$ es mayor a $B$:

&nbsp;&nbsp;Normalizado | &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Subnormal
:--|:--
$1.2875\cdot 10^1$ | $1287.5\cdot 10^{-2}$
$1.1_2\cdot 10^{-1_2}_2$ | $1100_2\cdot 10^{-100_2}_2$

Si $x_0$ es menor a uno:
    
&nbsp;&nbsp;Normalizado | &nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;&nbsp;Subnormal
:-- | :--
$1.2875\cdot 10^1$ | $0.12875\cdot 10^2$
$1.1_2\cdot 10^{-1_2}_2$ | $0.0011_2\cdot 10^{10_2}_2$

En el estándar __IEEE 754__, este último tipo de números subnormales están permitidos. En la siguiente sección se hablará más de ellos.

En este tipo de representación el error absoluto que se comete por redondeo varía según con el exponente, mientras que el error relativo permanece constante para los números normalizados. En la siguiente sección se hablará más de esto. Esto es una consecuencia de que hay la misma cantidad de representantes para cada intervalo $\left[B^n, B^{n+1}\right)$ independientemente del valor de $n$.

Debido a lo anterior, la cantidad de memoria necesaria permanece constante sin importar el orden de magnitud de $x$.

## Representación de reales en el estándar IEEE 754

El punto floatante de precisión simple «`Float32`» se representa de la siguiente manera:

<img src="img/32.svg" width="100%"/>

Mientras que el punto floatante de doble procisión «`Float64`» se representa como:
<img src="img/64.svg" width="100%"/>

Como la parte entera de todo número binario y normalizado es uno, entonces este se omite (bit escondido).

### Valores extremos normalizados

La siguiente tabla muestra cuales son los exponentes más pequeñas y mas grandes que se pueden representar en precisión simple y doble. También se muestra el menor número normalizado y el número finito más grande.

<img src="img/t1.png" width="80%"/>

### Precisión, Epsilon de la máquina y upl

La siguiente table muestar la precisión (se cuenta el bit escondido) y la epsión de la máquina para varias representaciones:

<img src="img/e2.png" width="60%"/>

- La presisión es el número de cifras con significado.
  - Toda la mantisa y el bit oculto.
- La epsión es el número más pequeño (positivo) que puede representar la mantisa, independientemente del orden de magnitud.
- Si $x\in\left[2^n, 2^{n+1}\right)$, la $upl(x)=\epsilon\cdot 2^{n}$, $E_{min}\leq n\leq E_{max}$ (unit in the last place) que en __Julia__ es `eps(x)`.
  - $upl(x)=upl(2^n)$ es el número más pequeño que puede representar la mantiza en el intervalo $\left(2^n, 2^{n+1}\right)$.
  - La __upl__ es la distancia entre dos representantes consecutivos en $\mathbb F$ en cada intervalo $\left[2^n, 2^{n+1}\right)$.
  - Permanece constante para cada $\left[2^n, 2^{n+1}\right)$.
  - Los valores extremos para __upl__ son $\epsilon\cdot 2^{E_{min}}$ y $\epsilon\cdot 2^{E_{max}}$ respectivamente.
  - $\epsilon=upl(1)$.

<img src="img/e1.png" width="80%"/>

### Número de representantes en $\left[2^n, 2^{n+1}\right)$, error aboluto y relativo

- Hay $2^{p-1}$ elementos de  $\mathbb F$ en el intervalo $\left[2^n, 2^{n+1}\right)$.
  - También hay $2^{p-1}$ elementos en el intervalo $\left[2^{E_{max}}, \infty\right)$
- El error absoluto $err(x_{a})$ que se comente al redondear $x_{t}$ (al representar en $\mathbb F$) por $x_{a}$ está aconado por $upl(x_t)$
  - Para cualquier tipo de redondeo (hay varios modos) $err(x_{a}) < upl(x_t)$
  - Si se ha redondeado al más cercano ($x\geq0.5$ por exceso y $x<0.5$ por defecto) entoces $err(x_{a}) \leq 0.5\cdot upl(x_t)$
- El error relativo $err_r(x_{a})<\epsilon$ en todos los modos de redondeo y $err_r(x_{a})\leq 0.5\cdot\epsilon$ si se ha redondeado al más cercano.

### Números subnormales

- Los valores subnormales $x$ son aquellos que $0\leq|x|<N_{min}$.
  - Todos los digitos del exponente son ceros.
  - Estos valores sacrifican dígitos de la mantisa para disminuir disminuir obtener potencias menores a $2^{E_{min}}$.
  - Hay $2^{p-1}$ valores subnormales en $\left[0.0, 2^{E_{min}}\right)$ y en $\left(-2^{E_{min}}, -0.0\right]$.
  - El error absoluto es el mismo que para el primer intervalo normal $\left[2^{E_{min}}, 2^{E_{min}+1}\right)$.
  - El error relativo se hace mayor, mientras más pequeño es $|x|$.

### Ejemplo de algunas representaciones `Float64` en IEEE 754

In [None]:
"""
Imprime el número binario obtenido por bitstring.
El signo se dibuja en azul, el exponente en verde y la mantisa en rojo.
"""
function ColorBitstring(x::Float64)
    bin = bitstring(x)
    printstyled(bin[1]; color = :blue)
    printstyled(bin[2:12]; color = :green)
    printstyled(bin[13:end],"\n"; color = :red)
end

In [None]:
# «N_min» es el más pequeño (valor absoluto) que conserva el error relativo.
x = 2.2250738585072014e-308
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
#Puedo crear números más pequeños, pero sacrificando precisión.
#Esto son los valores subnormales.
x = 1.1125369292536007e-308
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
#Es el número más pequño (valor absoluto no cero) que puedo escribir, pero no sin cifras decimales.
#Es el subnormal más pequeño no nulo.
x = 5.0e-324
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
#El cero tiene dos representaciones.
#El cero se considera un número subnormal.
x = 0.0
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
#Volvemos a N_min.
x = 2.2250738585072014e-308
eps(x)
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x = 4.450147717014403e-308
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x=8.900295434028806e-308
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x=1.0
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x=2.0
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x=4.0
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x=8.0
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x=16.0
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
#Esta es la myor potencia que se puede representar (2^1023)
x = 8.98846567431158e+307
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
println("Este es el máximo antes de Inf\n")
x = 1.7976931348623157e+308
println("x = ±",x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

println("\nA partir de aquí es Inf\n")
x = 8.98846567431158e+307*2
println("x = ±", x)
println("upl(x) = ", eps(x))
ColorBitstring(x)
ColorBitstring(-x)

x = Inf
println("x = ±", x)
println("upl(x) = ",  eps(x))
ColorBitstring(x)
ColorBitstring(-x)

In [None]:
x = NaN
println("x = ±", x)
println("upl(x) = ",  eps(x))
ColorBitstring(x)
ColorBitstring(-x)

### Conversión de binarios a `Float64`

Dado una cadaena `s` con el número binario correspondiente a un `Float64`:

1. Separar las el dígito del signo, los del exponente y la mantisa.
  - signo `s[1]`, expoenente `s[2:12]`, mantisa `s[13:end]`.
- Se establece el signo `(-1)^s[1]`.
- Se calcula la potencia `2^exp`, $N_{min}\leq exp \leq N_{max}$.
  - El exponente `s[2:12]` se convierte a entero decimal `exp0`.
  - El exponente comiensa en $-1023$, por tanto `exp=exp0-1023`.
  - Se calcula la pontencia de `poten=2^exp`.
- Evaluar casos particulares (`NaN`, número subnormal)
  - Si el exponente es `1024` y la mantisa `s[13:end]` contiene al menos a un `1`, entonces se retorna `NaN`.
  - Si el número es `±O.O` (`exp=-1203` y en `s[13:end]` sólo hay ceros) se establece la `mant=0.0`.
  - Si el número es subnormal distinto de cero (`exp=-1203` y en `s[13:end]` hay al menos un `1`).
    - La mantisa se desplaza de derecha a izquierda hasta eliminar todos los ceros y al primer `1` (de izquierda a derecha).`s[15+ceros:end]`
    - El recorrido de la mantisa se refleja en `poten*=2^(-ceros)` y la mantisa es ahora `s[14+ceros:end]`, donde `ceros` es el número de ceros hasta el primer `1`.
    - Se calcula la mantisa `mant` como la suma de los `0.5^s[i]` en `s[14+ceros:end]`.
    - finalmente le sumamos `1` a `mant`.
- Si el número está normalizado (el exponente es mayor a `-1023`) se calcula la mantisa igual que para los números subnormales, pero con todos los elementes de `s[13:end]`.
- Se multiplican la potencia, la mantisa y el signo.

Los cálculos se hacen con `BigFloat` para no introducir errores de redondeo en el proceso.
Finalmente el resultdo se convierte a `Float64`.

In [None]:
"""
Hace lo opuesto a bitstring.
Se usa para comprobar el algoritmo de conversión.
"""
function BinFloat(s::String)
    reinterpret(Float64, parse(Int, s, base=2))
end

"""
Cuante en número de ceros haste el primer 1 en el array x.
Sólo se debe llamar, si se sabe que contiene un uno.
Se usa para saber el desplazameiento en los números subnormales.
"""
function CerosMant(x::Array)
    cont=0
    for i in x
        if i == 1
            break
        end
        cont+=1
    end
    return cont
end

"""
Convierte el exponente de binario a entero en base 10.
x es un arreglo con 11 elementos. 
El valor devuelto es un etero.
"""
function ExpBinAFloat64(x::Array)
    exp=-1023
    n=length(x)
    for i in 1:n
        exp+=x[i]*2^(n-i)
    end
    return exp
end

"""
Convierte la mantisa de binario a entero en base 10.
x es un arreglo con 52 elementos. 
El valor devuelto es un BigFloat.
No se añade el uno de la parte entera para los números normalizados.
"""
function MantBinAFloat64(x::Array)
    mant=BigFloat("0.0")
    n=length(x)
    for i in 1:n
        mant+=x[i]*BigFloat("0.5")^i
    end
    return mant
end

"""
Convierte la cadena «s» de binario a un Float64.
"""
function Float64ABin(s::String)
    x=[parse(Int, i) for i in s] #Convierte el string a array de enteros.
    xe=x[2:12] #Esponente.
    xm=x[13:end] #Mantisa.
    
    signo=big"-1.0"^x[1]
    exp=ExpBinAFloat64(xe)
    poten=big"2.0"^BigFloat(string(exp))
    
    if exp == 1024 && CerosMant(xm) != 52
        return NaN
    end
    
    if exp == -1023 #Números subnormales
        ceros=CerosMant(xm)
        if ceros==52 #Si es el 0.0
            mant=big"0.0"
        else #Si no es 0.0.
            poten*=big"2.0"^BigFloat(string(-ceros)) #Se recorre la mantisa a la izquierda.
            xm=xm[ceros+2:end] #La mantisa es más pequeña.
            mant=MantBinAFloat64(xm)+big"1.0"
        end
    else #Números normalizados
        mant=MantBinAFloat64(xm)+big"1.0"
    end
    return Float64(signo*poten*mant) #Float64.
end

In [None]:
x = 2.2250738585072014e-308
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = -2.2250738585072014e-308
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = 10.45
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = -0.0
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = 1.1125369292536007e-308
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = -5.0e-324
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = 2.1729247260797e-311
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = Inf
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

In [None]:
x = NaN
s=bitstring(x)
ColorBitstring(x)
Float64ABin(s)

### Conversión de `Float64` a binario

Dado un `Float64` `x`, establecemos la cadana `s` con su represenación binaria en IEE 754.

1. Si el signo es negativo se asigna `s[1]=1`, de lo contrario se asigna `0`.
- Si es `Inf` (`NaN`), `s[2:12].=1` (`s[2:12].=1`) y los restantes se rellenan con ceros.
- Obtenemos los `11` dígitos del exponente `s[2:12]`.
  - Se detecta cual es la `n`, para la cual `x` están en `[2^n, 2^{n+1})`.
    - Los casos extremos son (subnormales, `Inf`, `NaN`, `E_min` y `E_max`) 
    - Para el resto, se busca `n` de manera similar al método de bisección para hallar ceros de funciones.
  - Una vez se conoce `n` se convierte `n+1023` a binario. 
  - De ser necesario se añaden ceros para obtener los 11 dígitos.
  - Se almacena todo en `s[2:12]`.
  - El valor `n`, se conserva. Si `x` es subnormal, es necesario hacer `n+=1`.
- Se obtiene la mantisa binaria del cociente x/2^n, -1022<=n<=1023, con 52 dígitos.
  - El algoritmo es el mismo que para el punto fijo.
  - Con el resultado se establece `s[13:end]`.
- Con todos lo anterior ya se tiene `s`.

Los cálculos que puedan verse afectados por el redondeo, se usa BigFloat.

In [129]:
"""
Costruye los 11 dígitos del exponente de un Float64 en binario.
Se le pasa el exponente como un entero decimal.
Para convertir usa la función EntABin definida al principio del notebook.
Los dígitos faltantes se rellenan con ceros.
Devuelve un arreglo con los 11 elementos.
"""
function ExpFloat64ABin(x::Int)
    bin_exp=EntABin(x+1023)
    N=11-length(bin_exp)
    if N>0
        bin_exp = reverse(bin_exp)
        for i in 1:N
            push!(bin_exp, Int(0))
        end
        bin_exp = reverse(bin_exp)
    end
    return bin_exp
end

"""
Encuentra la n, para la cual x están en [2^n, 2^{n+1}).
Si x está normalizado, entoces -1022<=n<=1023.
Si x es subnormal, n=-1023, si es inf o NaN, n=1024.
Se devuelve un arreglo con los 11 digigos en binario para n. También se devuelve n.
"""
function ObtenerExpBin(x::Float64)
    E_min, E_max = -1022, 1023
    a, b = E_min, E_max
    
    #Se atienden los casos extremos.
    if x<2.0^E_min
        return [ExpFloat64ABin(E_min - 1), E_min - 1] #11 ceros para los números subnormales.
    elseif x==2.0^E_min 
        return [ExpFloat64ABin(E_min), E_min] #Si es el menor número normalizado representable.
    elseif Inf>x>=2.0^E_max
        return [ExpFloat64ABin(E_max), E_max] #Arreglo del exponente mas grande antes de Inf.
    elseif isinf(x) || isnan(x)
        return [ExpFloat64ABin(E_max+1), E_max+1] #Inf y NaN tienen el mismo exponente, 11 unos.
    end
    
    #Este algoritmo busca la n, de manera similar
    #al método de bisección para hallar ceros de funciones. 
    while b != a+1
        c=(a+b)÷2
        exp_c = 2.0^c
        if exp_c == x
            return [ExpFloat64ABin(c), c]
        end
        2.0^a < x < exp_c ? b=c : a=c
    end
    return [ExpFloat64ABin(a), a]
end

"""
Convierte un Float64 «x» a binario según la norma IEE 750 (la mantisa no se redondea al más cercano).
Para obtener la mantisa, se utiliza la función MantBin definida al principio del notebook.
Devuelve una cadena «s», con la representación binaria de «x».
"""
function Float64Abin(x::Float64)
    bin=zeros(Int8, 64) #Se rellena de ceros, para Inf y NaN.
    E_nin, E_max = -1022, 1023
    mant = []
    
    #Añadimos el signo.
    if signbit(x)
        bin[1]=1
    end
    
    #Los casos especiales Inf y NaN.
    if isinf(x)
        bin[2:12].=1
        return join(string.(bin))
    elseif isnan(x)
        bin[2:13].=1
        return join(string.(bin))
    end
    
    #Encontramos los 11 dígitos del exponente.
    expo = ObtenerExpBin(abs(x))
    
    #Si el número es subnormal, hay que suparle uno al exponente.
    if expo[2]==-1023
       expo[2]+=1 
    end
    
    #Se obtiene el cociente x/2^n, -1022<=n<=1023.
    fac = abs(BigFloat(string(x))/big"2.0"^(expo[2]))
    
    #Se obtiene la mantisa con 52 díginos.
    mant = MantBin(Float64(fac), 52)
    
    #Contruimos la cadena con la notación en binario.
    return join(string.([bin[1]; expo[1]; mant]))
end

Float64Abin

In [130]:
x = 2.2250738585072014e-308
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m0[39m[32m00000000001[39m[31m0000000000000000000000000000000000000000000000000000[39m
0000000000010000000000000000000000000000000000000000000000000000


true

In [131]:
x = -2.2250738585072014e-308
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m1[39m[32m00000000001[39m[31m0000000000000000000000000000000000000000000000000000[39m
1000000000010000000000000000000000000000000000000000000000000000


true

In [132]:
x = 10.45
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m0[39m[32m10000000010[39m[31m0100111001100110011001100110011001100110011001100110[39m
0100000000100100111001100110011001100110011001100110011001100110


true

In [133]:
x = -0.0
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m1[39m[32m00000000000[39m[31m0000000000000000000000000000000000000000000000000000[39m
1000000000000000000000000000000000000000000000000000000000000000


true

In [134]:
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m1[39m[32m00000000000[39m[31m0000000000000000000000000000000000000000000000000000[39m
1000000000000000000000000000000000000000000000000000000000000000


true

In [135]:
x = -5.0e-324
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m1[39m[32m00000000000[39m[31m0000000000000000000000000000000000000000000000000001[39m
1000000000000000000000000000000000000000000000000000000000000001


true

In [136]:
x = 2.1729247260797e-311
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m0[39m[32m00000000000[39m[31m0000000001000000000000000000001000000000000000000001[39m
0000000000000000000001000000000000000000001000000000000000000001


true

In [137]:
x = Inf
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m0[39m[32m11111111111[39m[31m0000000000000000000000000000000000000000000000000000[39m
0111111111110000000000000000000000000000000000000000000000000000


true

In [138]:
x = -NaN
ColorBitstring(x)
s=Float64Abin(x)
println(s)
bitstring(x)==s

[34m1[39m[32m11111111111[39m[31m1000000000000000000000000000000000000000000000000000[39m
1111111111111000000000000000000000000000000000000000000000000000


true

Para más información, les adjunto el libro de Overton.