 # Representación binaria de enteros y punto flotante
---

## Asignación de Bits para Diferentes Tipos de Datos

#### `Int16` (Entero con Signo de 16 bits)
Un número `Int16` (entero con signo de 16 bits) se representa con:
- **16 bits** en total, donde el bit más a la izquierda es el bit de signo:
  - **Bit de signo**: `0` para positivo, `1` para negativo.
  - **15 bits para el valor**: Representan la magnitud del número en formato de complemento a dos.

Entonces, la estructura en bits de un `Int16` es:<br><br>
$
\text{Int16} = \text{signo (1 bit)} | \text{magnitud (15 bits)}
$
___
#### `Int32` (Entero con Signo de 32 bits)
Un número `Int32` (entero con signo de 32 bits) se representa con:
- **32 bits** en total, donde el bit más a la izquierda es el bit de signo:
  - **Bit de signo**: `0` para positivo, `1` para negativo.
  - **31 bits para el valor**: Representan la magnitud del número en formato de complemento a dos.

Entonces, la estructura en bits de un `Int32` es:<br><br>
$
\text{Int32} = \text{signo (1 bit)} | \text{magnitud (31 bits)}
$
___
#### `Int64` (Entero con Signo de 64 bits)
Un número `Int64` (entero con signo de 64 bits) se representa con:
- **64 bits** en total, donde el bit más a la izquierda es el bit de signo:
  - **Bit de signo**: `0` para positivo, `1` para negativo.
  - **63 bits para el valor**: Representan la magnitud del número en formato de complemento a dos.

Entonces, la estructura en bits de un `Int64` es:<br><br>
$
\text{Int64} = \text{signo (1 bit)} | \text{magnitud (63 bits)}
$
___
#### `Int128` (Entero con Signo de 128 bits)
Un número `Int128` (entero con signo de 128 bits) se representa con:
- **128 bits** en total, donde el bit más a la izquierda es el bit de signo:
  - **Bit de signo**: `0` para positivo, `1` para negativo.
  - **127 bits para el valor**: Representan la magnitud del número en formato de complemento a dos.

Entonces, la estructura en bits de un `Int128` es:<br><br>
$
\text{Int128} = \text{signo (1 bit)} | \text{magnitud (127 bits)}
$
___
#### `UInt64` (Entero sin Signo de 64 bits)
Un número `UInt64` (entero sin signo de 64 bits) se representa con:
- **64 bits** en total, todos los cuales representan la magnitud del número. No hay bit de signo, ya que el número siempre es no negativo.

Entonces, la estructura en bits de un `UInt64` es:<br><br>
$
\text{UInt64} = \text{magnitud (64 bits)}
$

In [33]:
a_small::Int16 = 2
a_sp = Int32(2)
a_dp = 2
a_big::Int128 = 2

@show bitstring(a_small) #representación binaria de un Int16
@show bitstring(a_sp)
@show bitstring(a_dp)
@show bitstring(a_big);

bitstring(a_small) = "0000000000000010"
bitstring(a_sp) = "00000000000000000000000000000010"
bitstring(a_dp) = "0000000000000000000000000000000000000000000000000000000000000010"
bitstring(a_big) = "00000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000010"


In [35]:
@show bitstring(-2);

bitstring(-2) = "1111111111111111111111111111111111111111111111111111111111111110"


In [56]:
for T in [Int8,Int16,Int32,Int64,Int128,UInt8,UInt16,UInt32,UInt64,UInt128]
           println("$(lpad(T,7)): [$(typemin(T)),$(typemax(T))]")
       end

   Int8: [-128,127]
  Int16: [-32768,32767]
  Int32: [-2147483648,2147483647]
  Int64: [-9223372036854775808,9223372036854775807]
 Int128: [-170141183460469231731687303715884105728,170141183460469231731687303715884105727]
  UInt8: [0,255]
 UInt16: [0,65535]
 UInt32: [0,4294967295]
 UInt64: [0,18446744073709551615]
UInt128: [0,340282366920938463463374607431768211455]


<br><br>
#### `Float32` (Punto Flotante de Precisión Simple)
Un número `Float32` (punto flotante de 32 bits) se representa con:
- **1 bit de signo**: Determina si el número es positivo (`0`) o negativo (`1`).
- **8 bits de exponente**: Codifica el exponente con un sesgo (bias) de 127.
- **23 bits de fracción (mantisa)**: Representa los dígitos significativos del número.

Entonces, la estructura en bits de un `Float32` es:<br><br>
$
\text{Float32} = \text{signo (1 bit)} | \text{exponente (8 bits)} | \text{fracción (23 bits)}
$
___
#### `Float64` (Punto Flotante de Doble Precisión)
Un número `Float64` (punto flotante de 64 bits) se representa con:
- **1 bit de signo**: Determina si el número es positivo (`0`) o negativo (`1`).
- **11 bits de exponente**: Codifica el exponente con un sesgo (bias) de 1023.
- **52 bits de fracción (mantisa)**: Representa los dígitos significativos del número.

Entonces, la estructura en bits de un `Float64` es:<br><br>
$
\text{Float64} = \text{signo (1 bit)} | \text{exponente (11 bits)} | \text{fracción (52 bits)}
$

In [36]:
f_small::Float16 = 2.
f_sp = Float32(2.)
f_dp = 2.

@show bitstring(f_small) #representación binaria de un Float16
@show bitstring(f_sp)
@show bitstring(f_dp);

bitstring(f_small) = "0100000000000000"
bitstring(f_sp) = "01000000000000000000000000000000"
bitstring(f_dp) = "0100000000000000000000000000000000000000000000000000000000000000"


In [45]:
@show floatmax(Float16)
@show floatmin(Float16);

floatmax(Float16) = Float16(6.55e4)
floatmin(Float16) = Float16(6.104e-5)


In [48]:
@show floatmax(Float32)
@show floatmin(Float32);

floatmax(Float32) = 3.4028235f38
floatmin(Float32) = 1.1754944f-38


In [49]:
@show floatmax(Float64)
@show floatmin(Float64);

floatmax(Float64) = 1.7976931348623157e308
floatmin(Float64) = 2.2250738585072014e-308


In [57]:
for Tf in [Float16,Float32,Float64]
           println("$(lpad(Tf,7)): [$(typemin(Tf)),$(typemax(Tf))]")
       end

Float16: [-Inf,Inf]
Float32: [-Inf,Inf]
Float64: [-Inf,Inf]


<br><br><br><br>

# Ejemplo para entender
---
### Sistema de Números en Punto Flotante con Base 2

Dado un sistema de números en punto flotante con:
- **Base** $ b = 2 $
- **2 bits en la fracción (normalizada)**, lo que significa que la mantisa tiene solo 2 bits después del "1" implícito.
- **Rango de exponentes**: ${-1, 0, +1, +2}$.

### Estructura del Número en Punto Flotante

La forma general de un número en punto flotante en este sistema es:

$\displaystyle \text{valor} = (\pm) (1.\text{fracción}) \times 2^{\text{exponente}}$


donde:
- El signo es positivo (solo consideramos números positivos).
- La **fracción** (o mantisa) está representada por 2 bits después del "1" inicial.
- El **exponente** está en el rango $ {-1, 0, +1, +2} $.

---

### Paso 1: Posibles Valores de la Fracción

Con 2 bits en la fracción, los valores posibles son:
- `00` que representa $(1.00)$ en binario, o $(1)$ en decimal
- `01` que representa $(1.01)$ en binario, o $(1.25)$ en decimal
- `10` que representa $(1.10)$ en binario, o $(1.5)$ en decimal
- `11` que representa $(1.11)$ en binario, o $(1.75)$ en decimal

### Paso 2: Aplicando el Rango de Exponentes

Ahora aplicamos cada exponente a cada una de estas fracciones posibles.


<br>

##### Cuando el Exponente = -1


$\displaystyle \text{valor} = (1.\text{fracción}) \times 2^{-1} = \frac{1.\text{fracción}}{2}$


- Para `00`: $1.00 \times 2^{-1} = 1 \times \frac{1}{2} = 0.5$
- Para `01`: $1.01 \times 2^{-1} = 1.25 \times \frac{1}{2} = 0.625$
- Para `10`: $1.10 \times 2^{-1} = 1.5 \times \frac{1}{2} = 0.75$
- Para `11`: $1.11 \times 2^{-1} = 1.75 \times \frac{1}{2} = 0.875$

Entonces, los números en punto flotante positivos con exponente $-1$ son:

$0.5,\  0.625,\  0.75,\  0.875$


<br>

##### Cuando el Exponente = 0


$\displaystyle \text{valor} = (1.\text{fracción}) \times 2^{0} = 1.\text{fracción}$


- Para `00`: $1.00 \times 2^{0} = 1$
- Para `01`: $1.01 \times 2^{0} = 1.25$
- Para `10`: $1.10 \times 2^{0} = 1.5$
- Para `11`: $1.11 \times 2^{0} = 1.75$

Entonces, los números en punto flotante positivos con exponente $0$ son:

$1,\  1.25,\  1.5,\  1.75$


<br>

##### Cuando el Exponente = +1


$\displaystyle \text{valor} = (1.\text{fracción}) \times 2^{1} = (1.\text{fracción}) \times 2$


- Para `00`: $1.00 \times 2^{1} = 1 \times 2 = 2$
- Para `01`: $1.01 \times 2^{1} = 1.25 \times 2 = 2.5$
- Para `10`: $1.10 \times 2^{1} = 1.5 \times 2 = 3$
- Para `11`: $1.11 \times 2^{1} = 1.75 \times 2 = 3.5$

Entonces, los números en punto flotante positivos con exponente $+1$ son:

$2,\  2.5,\  3,\  3.5$


<br>

##### Cuando el Exponente = +2


$\displaystyle \text{valor} = (1.\text{fracción}) \times 2^{2} = (1.\text{fracción}) \times 4$


- Para `00`: $1.00 \times 2^{2} = 1 \times 4 = 4$
- Para `01`: $1.01 \times 2^{2} = 1.25 \times 4 = 5$
- Para `10`: $1.10 \times 2^{2} = 1.5 \times 4 = 6$
- Para `11`: $1.11 \times 2^{2} = 1.75 \times 4 = 7$

Entonces, los números en punto flotante positivos con exponente $+2$ son:

$4,\  5,\  6,\  7$
<br><br>
### Resumen de Todos los Números en Punto Flotante Positivos

Combinando todos los valores de cada exponente, el conjunto de todos los números en punto flotante positivos en este sistema es:


$0.5,\  0.625,\  0.75,\  0.875,\  1,\  1.25,\  1.5,\  1.75,\  2,\  2.5,\  3,\  3.5,\  4,\  5,\  6,\  7$


---

Esta lista representa todos los números en punto flotante positivos que pueden ser representados en este sistema.


<br><br><br>

# ¿Cómo suma la computadora dos números en punto flotante?
---

La suma de números en punto flotante sigue un proceso específico debido a su representación en formato IEEE 754 (o formatos similares). A continuación se describen los pasos:

1. **Alinear los exponentes**: Para sumar dos números en punto flotante, primero se deben alinear sus exponentes. Esto implica:
   - Comparar los exponentes de los dos números.
   - Si los exponentes son diferentes, el número con el exponente más pequeño se ajusta (desplazando su mantisa hacia la derecha) hasta que ambos exponentes coincidan.

   Por ejemplo, para sumar $3.5 \times 10^2$ y $4.2 \times 10^3$, primero se convierte $3.5 \times 10^2$ a $0.35 \times 10^3$ para que los exponentes coincidan.

2. **Sumar las mantisas**: Con los exponentes alineados, se realiza la suma de las mantisas (las partes significativas de los números) directamente.
   - Si los dos números tienen el mismo signo, sus mantisas se suman.
   - Si los signos son diferentes, se realiza una resta de las mantisas.

   Por ejemplo, si los números alineados son $0.35 \times 10^3$ y $4.2 \times 10^3$, la suma de mantisas es $0.35 + 4.2 = 4.55$.

3. **Normalizar el resultado**: Después de sumar las mantisas, el resultado puede necesitar normalización para asegurarse de que la mantisa está en el rango correcto (generalmente $1 \leq \text{mantisa} < 2$ para números normalizados).
   - Si la mantisa resultante está fuera de este rango, se ajusta desplazándola hacia la izquierda o derecha y ajustando el exponente en consecuencia.

   Por ejemplo, si la suma da $9.0 \times 10^1$, se normaliza a $1.8 \times 10^2$.

4. **Ajustar el signo**: El signo del resultado depende de los signos de los operandos y del resultado de la operación de mantisas.
   - Si ambos operandos tienen el mismo signo, el resultado tendrá ese signo.
   - Si los operandos tienen signos opuestos, el signo del resultado será el del número con la mantisa mayor.

5. **Redondeo**: Debido a la limitación de precisión en la representación en punto flotante, puede ser necesario redondear el resultado para ajustarlo a la cantidad de bits disponibles en la mantisa.
   - Este redondeo asegura que el número final se ajuste al formato requerido (por ejemplo, `Float32` o `Float64`).

<br><br>
## Ejemplo de Suma de Números en Punto Flotante

Supongamos que queremos sumar los números en punto flotante $1.75 \times 2^3$ y $-1.25 \times 2^2$ en formato `Float32`:

1. **Alinear los exponentes**: Convertimos $-1.25 \times 2^2$ a $-0.625 \times 2^3$.
2. **Sumar las mantisas**: $1.75 + (-0.625) = 1.125$.
3. **Normalizar**: El resultado, $1.125 \times 2^3$, ya está en formato normalizado.
4. **Ajustar el signo**: El resultado es positivo.
5. **Redondeo**: No es necesario redondear en este caso, ya que el resultado se ajusta a la precisión disponible.

Entonces, el resultado de la suma es $1.125 \times 2^3$.


### Ejemplo Detallado de Suma de Números en Punto Flotante

Vamos a sumar los números en punto flotante $1.75 \times 2^3$ y $-1.25 \times 2^2$ en formato de punto flotante. Seguiremos cada paso del proceso detalladamente.

Supongamos que estamos trabajando en un sistema que utiliza el formato `Float32` (con 23 bits para la mantisa y 8 bits para el exponente). 

#### Paso 1: Convertir los números al formato de punto flotante

- **Primer número**: $1.75 \times 2^3$
  - La mantisa (o parte fraccionaria) es $1.75$, que en binario es $1.11$.
  - El exponente es $3$.

  Así que, en binario, $1.75 \times 2^3$ se representa como:
  - **Signo**: $0$ (positivo).
  - **Exponente**: $3 + 127 = 130$ (el sesgo de `Float32` es 127, así que sumamos $3 + 127$). Esto se representa como $10000010$ en binario.
  - **Mantisa**: Como el número es $1.75$, la parte fraccionaria en binario es $1.11$, pero en `Float32` solo almacenamos los bits después del punto: $11000000000000000000000$.

  Por lo tanto, en `Float32`, $1.75 \times 2^3$ se representa como:

 $ 0 | 10000010 | 11000000000000000000000  $



- **Segundo número**: $-1.25 \times 2^2$
- La mantisa es $1.25$, que en binario es $1.01$.
- El exponente es $2$.

Así que, en binario, $-1.25 \times 2^2$ se representa como:
- **Signo**: $1$ (negativo).
- **Exponente**: $2 + 127 = 129$, que es $10000001$ en binario.
- **Mantisa**: La parte fraccionaria en binario es $1.01$, así que almacenamos $01000000000000000000000$ en la mantisa.

Por lo tanto, en `Float32`, $-1.25 \times 2^2$ se representa como:

$ 1 | 10000001 | 01000000000000000000000 $


<br>

#### Paso 2: Alinear los exponentes

Para sumar estos dos números, necesitamos que ambos tengan el mismo exponente.

- Tenemos $1.75 \times 2^3$ y $-1.25 \times 2^2$. Como el primer número tiene un exponente de $3$ y el segundo de $2$, ajustaremos el segundo número para que tenga el exponente $3$.
- Para hacer esto, desplazamos la mantisa de $-1.25 \times 2^2$ una posición a la derecha, lo que equivale a dividirla por $2$:
- $-1.25 \times 2^2 = -0.625 \times 2^3$

Ahora tenemos dos números con el mismo exponente ($2^3$):
- $1.75 \times 2^3$
- $-0.625 \times 2^3$

<br>

#### Paso 3: Sumar las mantisas

Con los exponentes alineados, ahora sumamos las mantisas:

- Mantisa de $1.75 \times 2^3$: $1.75$ en binario es $1.11$.
- Mantisa de $-0.625 \times 2^3$: $-0.625$ en binario es $-0.101$.

Ahora sumamos $1.11$ y $-0.101$ en binario:


$$
\begin{array}{r}
  \phantom{1}1.110 \\
+ \phantom{1}-0.101 \\
\hline
  \phantom{+}1.011 \\
\end{array}
$$

En decimal, $1.011$ es igual a $1.125$.

Entonces, el resultado de la suma de las mantisas es $1.125$ y el exponente común es $3$.

<br>

#### Paso 4: Normalizar el resultado

El resultado actual es $1.125 \times 2^3$, que ya está en forma normalizada (el valor de la mantisa está entre $1$ y $2$). No es necesario realizar ningún ajuste en este caso.

<br>

#### Paso 5: Ajustar el signo

En este caso, el resultado es positivo porque la magnitud de $1.75$ es mayor que la de $0.625$.

<br>

#### Paso 6: Redondeo

No es necesario redondear en este caso, ya que el resultado se ajusta perfectamente a la precisión disponible en la mantisa de `Float32`.
El resultado, $1.011$, tiene solo 3 bits significativos en la parte fraccionaria, lo cual es mucho menor que los 23 bits disponibles en Float32 para la mantisa. Por lo tanto, no estamos excediendo la capacidad de precisión de la mantisa y no se necesita redondeo.

<br>

### Resultado Final

Entonces, el resultado de sumar $1.75 \times 2^3$ y $-1.25 \times 2^2$ es:<br>

$
1.125 \times 2^3
$

En binario y en formato `Float32`, esto se representaría como:
- **Signo**: $0$
- **Exponente**: $10000010$ (exponente $3 + 127 = 130$)
- **Mantisa**: $00100000000000000000000$ (correspondiente a $1.001$ en binario)

La representación final en `Float32` es:

$ 0 | 10000010 | 00100000000000000000000 $


<br><br>

## Ejemplo de Redondeo en Punto Flotante

En operaciones de punto flotante, el redondeo es necesario cuando el resultado de una operación tiene más bits significativos en la mantisa de los que el formato puede almacenar. Veamos un ejemplo en el formato `Float32`, que tiene **23 bits** en la mantisa.

Supongamos que queremos sumar los números $1.2345678 \times 2^1$ y $1.8765432 \times 2^1$.

1. **Convertimos los números a binario**:
   - $1.2345678$ en binario es aproximadamente $1.00111100011111000010110$.
   - $1.8765432$ en binario es aproximadamente $1.11100011110111100010100$.

   Así que los números son:
   - Primer número: $1.00111100011111000010110 \times 2^1$
   - Segundo número: $1.11100011110111100010100 \times 2^1$

2. **Alinear los exponentes**:
   - Ambos números ya tienen el mismo exponente ($2^1$), por lo que podemos proceder directamente a sumar las mantisas.

3. **Sumar las mantisas**:
   - Sumamos las mantisas en binario:
   
   $$
   1.00111100011111000010110 + 1.11100011110111100010100
   $$
   
   - El resultado de esta suma es aproximadamente $11.00100000010110100101010$ en binario.

4. **Normalizar el resultado**:
   - La mantisa resultante, $11.00100000010110100101010$, no está en forma normalizada, ya que comienza con "11".
   - Desplazamos la mantisa a la derecha una posición para que esté en forma $1.10010000001011010010101$ y aumentamos el exponente en $1$.
   - Ahora tenemos $1.10010000001011010010101 \times 2^2$.

5. **Redondeo**:
   - La mantisa actual tiene **25 bits significativos**: $1.10010000001011010010101$, pero en el formato `Float32` solo tenemos espacio para **23 bits** en la mantisa.
   - Para ajustarnos al formato `Float32`, debemos redondear la mantisa a 23 bits.

   - Si truncamos después del vigésimo tercer bit, la mantisa sería $1.100100000010110100101$. Sin embargo, observamos que el siguiente bit es "1", por lo que aplicamos redondeo hacia arriba, resultando en:

   $$
   1.10010000001011010011000
   $$

6. **Resultado Final**:
   - Después del redondeo, el resultado final es $1.10010000001011010011000 \times 2^2$ en formato `Float32`.

### Resumen

En este ejemplo, el redondeo fue necesario porque el resultado de la suma producía más bits significativos en la mantisa de los que `Float32` puede almacenar. Al aplicar redondeo hacia el bit más cercano, aseguramos que el resultado se ajuste a la precisión disponible en el formato.


<br>

### Cálculo del Error de Redondeo en el Ejemplo Anterior

Para calcular el **error de redondeo** en el ejemplo anterior, compararemos el resultado de la suma en precisión simple (`Float32`) con el resultado en precisión doble (`Float64`). La idea es realizar la operación en ambos formatos y luego calcular la diferencia entre ambos resultados.

#### Paso 1: Realizar la Suma en Float64

En el formato `Float64` (doble precisión), tenemos **52 bits** para la mantisa, lo cual permite una representación mucho más precisa del resultado de la suma. Si sumamos $1.2345678 \times 2^1$ y $1.8765432 \times 2^1$ en `Float64`, no necesitamos redondear los bits adicionales como en `Float32`, por lo que obtenemos un valor muy cercano al resultado exacto de la suma.

Vamos a suponer que el resultado de la suma en `Float64` es:

$$
\text{resultado}_{\text{Float64}} = 3.1111110 \times 2^1
$$

(Este valor es un ejemplo ilustrativo, ya que el cálculo real sería realizado en el sistema con la precisión `Float64`).

#### Paso 2: Resultado de la Suma en Float32 (con Redondeo)

En el ejemplo anterior, después de redondear, obtuvimos el resultado en `Float32`:

$$
\text{resultado}_{\text{Float32}} = 1.10010000001011010011000 \times 2^2
$$

Convertido a decimal, este valor es aproximadamente:

$$
\text{resultado}_{\text{Float32}} \approx 3.109375
$$

#### Paso 3: Calcular el Error de Redondeo

Ahora, el **error de redondeo** es la diferencia entre el resultado en `Float64` (que se considera más preciso) y el resultado redondeado en `Float32`.

$$
\text{error de redondeo} = |\text{resultado}_{\text{Float64}} - \text{resultado}_{\text{Float32}}|
$$

Sustituyendo los valores aproximados:

$$
\text{error de redondeo} \approx |3.1111110 - 3.109375|
$$

Calculamos la diferencia:

$$
\text{error de redondeo} \approx 0.001736
$$

### Resumen

El error de redondeo en este caso es aproximadamente $0.001736$. Esto se debe a la pérdida de precisión al redondear la mantisa para ajustarse a los 23 bits disponibles en el formato `Float32`, mientras que `Float64` permite una mayor precisión con sus 52 bits de mantisa.

Este error de redondeo es típico en sistemas de punto flotante cuando se pasa de una representación de precisión más alta (como `Float64`) a una de precisión más baja (como `Float32`).


<br><br><br>

# Error de Representación

## Error en la representación del número $ 0.1 $ en `Float16`, `Float32` y `Float64`

Cuando representamos el número decimal $0.1 \times 10^0 $ (o simplemente $ 0.1 $) en un formato de punto flotante como `Float16`, `Float32` o `Float64`, estamos cometiendo un **error de representación** debido a las limitaciones de precisión de cada formato. Esto sucede porque $ 0.1 $ no se puede expresar exactamente en binario como un número de punto flotante finito.

### Razón del Error

El número $ 0.1 $ en decimal tiene una expansión binaria periódica. En binario, $ 0.1 $ se convierte en un número con una serie infinita de bits después del punto:

$$
0.1_{10} = 0.00011001100110011001100110011\ldots_2
$$

Dado que los formatos `Float16`, `Float32` y `Float64` solo pueden almacenar una cantidad finita de bits en la mantisa, se produce un error al truncar esta expansión infinita.

### Cálculo del Error en Cada Formato

Para entender el error de representación, podemos observar el número binario más cercano que cada formato puede representar. Aquí está la aproximación de $ 0.1 $ y el error asociado en cada caso:

#### 1. Error en `Float16`
En el formato `Float16` (punto flotante de 16 bits):
- **Mantisa**: 10 bits significativos.
- **Exponente**: 5 bits, con un sesgo (bias) de 15.

La representación más cercana a $ 0.1 $ en `Float16` es aproximadamente:

$$
0.0999755859375
$$

Comparado con $0.1$, el error absoluto en `Float16` es:

$$
|0.1 - 0.0999755859375| \approx 0.0000244140625
$$

Este error es bastante grande debido a la baja precisión de `Float16`.

#### 2. Error en `Float32`
En el formato `Float32` (punto flotante de 32 bits):
- **Mantisa**: 23 bits significativos.
- **Exponente**: 8 bits, con un sesgo de 127.

La representación más cercana a $ 0.1 $ en `Float32` es aproximadamente:

$$
0.10000000149011612
$$

Comparado con $ 0.1 $, el error absoluto en `Float32` es:

$$
|0.1 - 0.10000000149011612| \approx 1.49 \times 10^{-9}
$$

Este error es mucho menor que en `Float16`, debido a la mayor precisión de `Float32`.

#### 3. Error en `Float64`
En el formato `Float64` (punto flotante de 64 bits):
- **Mantisa**: 52 bits significativos.
- **Exponente**: 11 bits, con un sesgo de 1023.

La representación más cercana a $ 0.1 $ en `Float64` es aproximadamente:

$$
0.10000000000000000555
$$

Comparado con $ 0.1 $, el error absoluto en `Float64` es:

$$
|0.1 - 0.10000000000000000555| \approx 5.55 \times 10^{-17}
$$

Este error es extremadamente pequeño gracias a la alta precisión de `Float64`.

### Resumen de los Errores

| Formato   | Representación Aproximada de $  0.1  $ | Error Absoluto                         |
|-----------|----------------------------------------|----------------------------------------|
| `Float16` | $ 0.0999755859375 $                    | $  2.44 \times 10^{-5} $               |
| `Float32` | $ 0.10000000149011612 $                | $  1.49 \times 10^{-9} $               |
| `Float64` | $ 0.10000000000000000555 $             | $  5.55 \times 10^{-17} $              |

### Conclusión

La precisión aumenta a medida que usamos un formato de punto flotante con más bits (de `Float16` a `Float64`). Sin embargo, debido a la naturaleza de los números en punto flotante y la limitación de bits en la mantisa, ningún formato puede representar exactamente \( 0.1 \) en binario, lo que causa un error de representación que depende del número de bits significativos disponibles en cada formato.

- **`Float16`**: tiene un error significativo debido a su baja precisión, y no es adecuado para cálculos que requieran alta exactitud.
- **`Float32`**: reduce el error de representación, pero aún tiene una precisión limitada.
- **`Float64`**: ofrece un error extremadamente pequeño, adecuado para la mayoría de las aplicaciones científicas e ingenieriles que requieren precisión.


<br><br>

# $\epsilon$ de la máquina

En Julia, **machine epsilon** (o épsilon de máquina) es el valor más pequeño que, cuando se suma a 1.0, produce un número diferente de 1.0 en el formato de punto flotante utilizado. En otras palabras, representa la distancia entre 1.0 y el siguiente número de punto flotante más grande que se puede representar en el sistema.

In [58]:
eps(Float16)

Float16(0.000977)

In [59]:
eps(Float32)

1.1920929f-7

In [60]:
eps(Float64)

2.220446049250313e-16