# 1.2.Sistema de punto flotante

## Representación de los números en la computadora

Las computadoras utilizan una determinada cantidad de cifras de un número real para realizar operaciones. Además, utilizan una representación de los números en bases no usadas por las personas para realizar cálculos comunes, ejemplos son la **2, 8 o 16**.  En contraste, las personas utilizamos la base **10** para representar a los números y realizar cálculos.

A continuación se muestran construcciones que se han hecho para representar los números en una computadora.

### Enteros

Tenemos distintos métodos para la representación de los enteros en una computadora, pero uno que es más utilizado es el de "magnitud con signo" en el que se utiliza un bit para el signo del número y los bits restantes para almacenar al número. El primer bit se le da el valor de $0$ para  codificar al signo `+` y el valor $1$ codifica al bit `-`. Entonces el número $-173$ se almacena con la cadena de $16$ bits:

| | | | | | | | | | | | | | | | |
|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|:---:|
|1|0|0|0|0|0|0|0|1|0|1|0|1|1|0|1|



Utilizamos la notación posicional para convertir este número binario a base 10: el primer bit es $1$ por lo que se tiene un signo negativo. Luego:

$$0*2^{14} + 0*2^{13} + \dots+ 1*2^7+0*2^6+ 1*2^5+0*2^4+1*2^3+1*2^2+0*2^1+1*2^0 = 1*2^7+ 1*2^5+1*2^3+1*2^2+1*2^0 = 173$$

In [2]:
#include<stdio.h>
#include<math.h>
int main(){
    printf("suma: %f",pow(2,7)+pow(2,5)+pow(2,3)+pow(2,2)+pow(2,0));
    return 0;
}

suma: 173.000000

**Ejercicio:**

Determina el rango de enteros de base $10$ que puede representarse en una computadora de $16$ bits utilizando el primer bit para el signo

### Reales

Dadas las limitaciones en el almacenamiento de una computadora (hardware), sólo se representa un subconjunto de los números reales en ella, tal conjunto se denota como $\mathcal{F}\mathcal{l}$ y contiene números racionales:

$$\mathcal{F}\mathcal{l} \subset \mathbb{Q} \subset \mathbb{R}.$$


**Un poco de historia...**
En 1985 la IEEE publicó un estándar de nombre [Binary Floating Point Arithmetic Standard 754-1985](https://standards.ieee.org/standard/754-1985.html) y ha habido más estándares publicados, siendo el más reciente el [IEEE 754-2019](https://standards.ieee.org/standard/754-2019.html). El estándar $754-1985$ proveía estándares para números de punto flotante binarios y decimales, formatos para intercambio de datos, algoritmos para operaciones de redondeo y manejo de excepciones. Los formatos se especificaron para precisiones simple, doble y extendida y tales estándares son seguidos por las manufactureras de computadoras que utilizan el hardware de punto flotante.

"A family of commercially feasible ways for new systems to perform binary floating-point arithmetic is defined. This standard specifies basic and extended floating-point number formats; add, subtract, multiply, divide, square root, remainder, and compare operations; conversions between integer and floating-point formats; conversions between different floating-point formats; conversions between basic-format floating-point numbers and decimal strings; and floating-point exceptions and their handling, including nonnumbers." (estándar $754-1985$)

## Sistema de punto flotante (SPF)

En un sistema de punto flotante se define:

1. Rango de un exponente definido por un límite inferior y uno superior.

2. Base del sistema.

3. Precisión.

Así, un número $x$ en el SPF, $x \in \mathcal{F}\mathcal{l}$ se representa de la forma:

$$\pm 0.d_1d_2 \dots d_k \times \beta^n .$$

donde:

$n$ es el exponente, $n \in [L,U] \cap \mathbb{Z}$ con $L, U$ fijos.

$k$ es la precisión.

$\beta$ es la base.

$d_i \in \{0,1,\dots,\beta-1\} \forall i=1,\dots,k$ son los dígitos.

**Obs:** a la parte $\pm 0.d_1d_2 \dots d_k$ se le llama **mantisa**.

Los números reales que tienen una representación exacta en el $\mathcal{F}\mathcal{l}$ se les conoce como **números de máquina**.

**Ejemplo:**

Supóngase un $\mathcal{F}\mathcal{l}$ con $\beta = 10, k=4, n\in[-4,3]\cap \mathbb{Z}$ entonces:

$$0.333 \times 10^{-1} , 0.3300 \times 10^{3} \in \mathcal{F}\mathcal{L}$$

pero: $$\frac{1}{3} \notin \mathcal{F}\mathcal{l}$$

por lo que $0.333 \times 10^{-1} , 0.3300 \times 10^{3}$ son números de máquina.

## SPFN

Un Sistema de Punto Flotante Normalizado es aquel que cumple: $$d_1 \in \{1,2,\dots \beta -1\}.$$ para números distintos de cero.

**Obs: el número cero es el único que tiene dígitos de la mantisa y exponente iguales a cero.**

**Ejemplos:**

1) $\beta = 10, k=3$, rango del exponente en $[-3,3] \cap \mathbb{Z}$, entonces algunos números en el SPFN:

|Notación de punto flotante |Mantisa |Exponente|Valor de punto fijo|
|:---:|:---:|:---:|:---:|
|$0.153\times10^0$|$0.153$|$0$|$0.153$|
|$-0.999\times10^2$|$-0.999$|$2$|$-99.9$|
|$0.343\times10^{-3}$|$0.343$|$-3$|$0.000343$|

2) En un SPFN con $\beta=2, k=3$, rango del exponente en $[0,2] \cap \mathbb{Z}$ se tiene:

a) El número más grande positivo que es posible representar es:

$$0.111 \times 2^2 = (11.1)_2 = 1*2^1 + 1*2^0 + 1*2^{-1} = (3.5)_{10}$$

b) El más chico positivo es:

$$0.100 \times 2^0 = (0.1)_2 = 1*2^{-1} = (0.5)_{10}$$.

**Obs: se utiliza $(\cdot)_{10}$ para representar un número en base 10 pero típicamente se omite escribir paréntesis y la base.**

## Características de un SPFN de doble precisión

El número de máquina más grande positivo es del orden de $2^{1023}(2-2^{-52}) \approx 10^{308}$.

In [1]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Numéro más grande positivo: %e\n", DBL_MAX);
    return 0;
}


Numéro más grande positivo: 1.797693e+308


El número de máquina normalizado más chico positivo es del orden de $2^{-1022} \approx 10^{-308}$.

In [2]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Numéro más chico positivo: %e\n", DBL_MIN);
    return 0;
}


Numéro más chico positivo: 2.225074e-308


El número de máquina no normalizado más chico positivo es del orden de $2^{-1074} \approx 10^{-324}$.

In [3]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Numéro más chico positivo: %e\n", DBL_EPSILON*DBL_MIN);
    return 0;
}

Numéro más chico positivo: 4.940656e-324


Epsilon de la máquina

In [4]:
#include<stdio.h>
#include<float.h>
int main(){
    printf("Epsilon de la máquina: %e\n", DBL_EPSILON);
    return 0;
}

Numéro más chico positivo: 2.220446e-16
