# 1.2.Sistema de punto flotante

## Representación de los números en la computadora

Las computadoras utilizan una determinada cantidad de cifras de un número real para realizar operaciones. Además, utilizan una representación de los números en bases no usadas por las personas para realizar cálculos comunes, ejemplos son la **2, 8 o 16**.  En contraste, las personas utilizamos la base **10** para representar a los números y realizar cálculos.

A continuación se muestran construcciones que se han hecho para representar los números en una computadora.

### Enteros

Tenemos distintos métodos para la representación de los enteros en una computadora, pero uno que es más utilizado es el de "magnitud con signo" en el que se utiliza un bit para el signo del número y los bits restantes para almacenar al número. El primer bit se le da el valor de $0$ para  codificar al signo `+` y el valor $1$ codifica al bit `-`. Entonces el número $-173$ se almacena con la cadena de $16$ bits:

| | | | | | | | | | | | | | | | |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
|1|0|0|0|0|0|0|0|1|0|1|0|1|1|0|1|



Utilizamos la notación posicional para convertir este número binario a base 10: el primer bit es $1$ por lo que se tiene un signo negativo. Luego:

$$0*2^{14} + 0*2^{13} + \dots+ 1*2^7+0*2^6+ 1*2^5+0*2^4+1*2^3+1*2^2+0*2^1+1*2^0 = 1*2^7+ 1*2^5+1*2^3+1*2^2+1*2^0 = 173$$

In [1]:
#include<stdio.h>
#include<math.h>
int main(){
    printf("suma: %f",pow(2,7)+pow(2,5)+pow(2,3)+pow(2,2)+pow(2,0));
    return 0;
}

suma: 173.000000

**Ejercicio:**

Determina el rango de enteros de base $10$ que puede representarse en una computadora de $16$ bits utilizando el primer bit para el signo

### Reales

Dadas las limitaciones en el almacenamiento de una computadora (hardware), sólo se representa un subconjunto de los números reales en ella, tal conjunto se denota como $\mathcal{F}\mathcal{l}$ y contiene números racionales:

$$\mathcal{F}\mathcal{l} \subset \mathbb{Q} \subset \mathbb{R}.$$


**Un poco de historia...**
En 1985 la IEEE publicó un estándar de nombre [Binary Floating Point Arithmetic Standard 754-1985](https://standards.ieee.org/standard/754-1985.html) y ha habido más estándares publicados, siendo el más reciente el [IEEE 754-2019](https://standards.ieee.org/standard/754-2019.html). El estándar $754-1985$ proveía estándares para números de punto flotante binarios y decimales, formatos para intercambio de datos, algoritmos para operaciones de redondeo y manejo de excepciones. Los formatos se especificaron para precisiones simple, doble y extendida y tales estándares son seguidos por las manufactureras de computadoras que utilizan el hardware de punto flotante.

"A family of commercially feasible ways for new systems to perform binary floating-point arithmetic is defined. This standard specifies basic and extended floating-point number formats; add, subtract, multiply, divide, square root, remainder, and compare operations; conversions between integer and floating-point formats; conversions between different floating-point formats; conversions between basic-format floating-point numbers and decimal strings; and floating-point exceptions and their handling, including nonnumbers." (estándar $754-1985$)

## Sistema de punto flotante (SPF)

En un sistema de punto flotante se define:

1. Rango de un exponente definido por un límite inferior y uno superior.

2. Base del sistema.

3. Precisión.

Así, un número $x$ en el SPF, $x \in \mathcal{F}\mathcal{l}$ se representa de la forma:

$$\pm 0.d_1d_2 \dots d_k \times \beta^n .$$

donde:

$n$ es el exponente, $n \in [L,U] \cap \mathbb{Z}$ con $L, U$ fijos.

$k$ es la precisión.

$\beta$ es la base.

$d_i \in \{0,1,\dots,\beta-1\} \forall i=1,\dots,k$ son los dígitos.

**Obs:** a la parte $\pm 0.d_1d_2 \dots d_k$ se le llama **mantisa**.

Los números reales que tienen una representación exacta en el $\mathcal{F}\mathcal{l}$ se les conoce como **números de máquina**.

**Ejemplo:**

Supóngase un $\mathcal{F}\mathcal{l}$ con $\beta = 10, k=4, n\in[-4,3]\cap \mathbb{Z}$ entonces:

$$0.333 \times 10^{-1} , 0.3300 \times 10^{3} \in \mathcal{F}\mathcal{L}$$

pero: $$\frac{1}{3} \notin \mathcal{F}\mathcal{l}$$

por lo que $0.333 \times 10^{-1} , 0.3300 \times 10^{3}$ son números de máquina.

## SPFN

Un Sistema de Punto Flotante Normalizado es aquel que cumple: $$d_1 \in \{1,2,\dots \beta -1\}.$$ para números distintos de cero.

**Obs: el número cero es el único que tiene dígitos de la mantisa y exponente iguales a cero.**

**Ejemplos:**

1) $\beta = 10, k=3$, rango del exponente en $[-3,3] \cap \mathbb{Z}$, entonces algunos números en el SPFN:

|Notación de punto flotante |Mantisa |Exponente|Valor de punto fijo|
|:---:|:---:|:---:|:---:|
|$0.153\times10^0$|$0.153$|$0$|$0.153$|
|$-0.990\times10^2$|$-0.990$|$2$|$-99.0$|
|$0.343\times10^{-3}$|$0.343$|$-3$|$0.000343$|

2) En un SPFN con $\beta=2, k=3$, rango del exponente en $[0,2] \cap \mathbb{Z}$ se tiene:

a) El número más grande positivo que es posible representar es:

$$0.111 \times 2^2 = (11.1)_2 = 1*2^1 + 1*2^0 + 1*2^{-1} = (3.5)_{10}$$

b) El más chico positivo es:

$$0.100 \times 2^0 = (0.1)_2 = 1*2^{-1} = (0.5)_{10}$$.

**Obs: se utiliza $(\cdot)_{10}$ para representar un número en base 10 pero típicamente se omite escribir paréntesis y la base.**

**Obs2: la representación normalizada permite una representación única de los números reales en el $\mathcal{F}{l}$.**

## Números de máquina binarios

Un SPF de doble precisión utiliza:

* 64 bits para representar un número real. El primero es un indicador de signo denotado por $s$. Le siguen $11$ bits para construir al exponente $c$ llamado **característica** y $52$ bits que construyen a la mantisa $f$. La base es $\beta=2$.

**Nota 1: si es SPFN entonces se tienen 53 bits. Así, en un SPF en general maneja 52 (o 53) dígitos binarios, que corresponden a aproximadamente 15 (o 16) dígitos decimales**. Ver: [Double-precision floating-point format](https://en.wikipedia.org/wiki/Double-precision_floating-point_format#Implementations).

In [2]:
#include<stdio.h>
#include<math.h>
int main(){
    printf("52 bits corresponden aproximadamente a: %f dígitos decimales\n", log10(pow(2,52)));
    printf("53 bits corresponden aproximadamente a: %f dígitos decimales\n", log10(pow(2,53)));
    return 0;
}

52 bits corresponden aproximadamente a: 15.653560 dígitos decimales
53 bits corresponden aproximadamente a: 15.954590 dígitos decimales


**Nota 2: los 11 bits que se utilizan para construir al exponente producen un rango de $0$ a $2^{11}-1=2047:$**

In [3]:
//%cflags:-lm
#include<stdio.h>
#include<math.h>
int main(){
    int suma = 0;
    int n=10;
    int i;
    for(i=0;i<=n;i++)
        suma+=pow(2,i);
    printf("Suma de 2^0 + 2^1 + ... + 2^10: %d", suma);
    return 0;
}

Suma de 2^0 + 2^1 + ... + 2^10: 2047

**pero esto construye un exponente con signo positivo, por lo que se resta (offset) la cantidad de $-1023$ de la característica y se tiene el rango del exponente en $[-1023,1024] \cap \mathbb{Z}$:**

$$2^{c-1023}.$$

Y un valor de $c=1023$ representa un exponente de $0$.

**Nota3: los valores $-1023$ (todos los bits iguales a $0$) y $1024$ (todos los bits iguales a $1$) para la característica se reservan para números especiales. Por esto, el exponente corre en el rango de $[-1022, 1023] \cap \mathbb{Z}$.**

**Nota4: todos los bits iguales a 0 para la característica se utiliza para representar al número 0 con signo (si su mantisa es $0$) y a los números subnormales* (si su mantisa es $\neq0$). Todos los bits iguales a 1 se utiliza para representar $\infty$ (si su mantisa es $0$) y NaNs (si su mantisa $\neq 0$).**

Entonces un número de máquina binario en un SPFN se representa por:

$$(-1)^s2^{c-1023}(1+f)$$

Y los subnormales como:

$$(-1)^s2^{1-1023}(0+f)=(-1)^s2^{-1022}f.$$

*Los números subnormales son todos aquellos números con magnitud menor al número más chico positivo. Con estos números se sacrifica precisión por representatividad alrededor del $0$.

**Ejemplos:**

1. El valor del exponente más chico para los números normales es: $2^{1-1023} = 2^{-1022}$.

2. El valor del exponente más grande es: $2^{2046-1023} = 2^{1023}$.


3. Considérese el número formado por:

primer bit: $0$.

bits de la característica: $10000000011$.

bits de la mantisa: $1011100100010\dots0$.

Entonces:

1. El número es positivo pues $s=0$.

2. Los bits de la característica generan al número decimal:

$$c = 1*2^{10} + 0*2^9+\dots+0*2^2+1*2^1+1*2^0=1024+2+1=1027$$

por lo que el exponente es: $2^{1027-1023}=2^4$.

3. Los bits de la mantisa generan al número decimal:

$$1*2^{-1} + 1*2^{-3}+1*2^{-4}+1*2^{-5}+1*2^{-8} + 1*2^{-12} = 0.7229.$$

In [4]:
#include<stdio.h>
#include<math.h>
int main(){
    printf("Suma de 2^-1 + 2^-3 + 2^-4+2^-5+2^-8+2^-12: %f", pow(2,-1)+pow(2,-3)+pow(2,-4)+pow(2,-5)+pow(2,-8)+pow(2,-12));
    return 0;
}

Suma de 2^-1 + 2^-3 + 2^-4+2^-5+2^-8+2^-12: 0.722900

Entonces el número de máquina binario es el número decimal:

$$(-1)^s2^{c-1023}(1+f)=(-1)^02^{4}(1+0.7229) =27.5664 $$

In [5]:
#include<stdio.h>
#include<math.h>
int main(){
    printf("2^4(1.7229): %f",pow(2,4)*1.7229);
    return 0;
}

2^4(1.7229): 27.566400

## Características de un SPFN de doble precisión

El número de máquina más grande positivo normalizado es: $$2^{1023}(1+(2^{-1}+\dots+2^{-52}))=2^{1023}(1+(1-2^{-52})) = 2^{1023}(2-2^{-52}) \approx 1.7977 \times 10^{308}.$$

In [6]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Numéro más grande positivo: %e\n", DBL_MAX);
    return 0;
}


Numéro más grande positivo: 1.797693e+308


El número de máquina normalizado más pequeño positivo es: $$2^{-1022}(1+0) \approx 2.2251 \times 10^{-308}.$$

In [7]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Numéro más chico positivo: %e\n", DBL_MIN);
    return 0;
}


Numéro más chico positivo: 2.225074e-308


El número de máquina no normalizado más chico positivo es del orden de $2^{-1022}(2^{-52})=2^{-1074} \approx 10^{-324}$.

In [8]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Numéro más chico positivo: %e\n", DBL_EPSILON*DBL_MIN);
    return 0;
}

Numéro más chico positivo: 4.940656e-324


Epsilon de la máquina

In [9]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Epsilon de la máquina: %e\n", DBL_EPSILON);
    return 0;
}

Epsilon de la máquina: 2.220446e-16
