# Лекция 1. Арифметика чисел с плавающей точкой.

## План на сегодня

- Арифметика чисел с фиксированной и плавающей точкой
- Форматы представления действительных чисел в памяти компьютера
- Почему способы хранения чисел в компьютере важны для обучения нейросетей

## Представление чисел 

- Действительные числа обозначают различные величины: вероятности, массы, скорости, длины...

- Важно знать, как они представляются в компьютере, который оперирует только битами.

## Представление с фиксированной точкой

- Наиболее очевидный формат представления чисел – это формат чисел с **фиксированной точкой**, также известный как **Qm.n** формат

- Число **Qm.n** лежит в отрезке $[-(2^m), 2^m - 2^{-n}]$ и его точность $2^{-n}$.

- Общий размер памяти для хранения такого числа $m + n + 1$ бит.

- Диапазон чисел, представимых таким образом, ограничен.

### Пример

- Пусть для хранения числа используется $m=2, n=1$, то есть $2 + 1 + 1 = 4$ бита
- Тогда числа лежат в отрезке $[-2^2, 2^2 - 0.5] = [-4, 3.5]$ и два соседних числа отличаются на $0.5$

## Примеры использования

- Приложение [GnuCash](https://en.wikipedia.org/wiki/GnuCash) использует числа с фиксированной точкой для избежания ошибок округлений при операциях с финансовыми данными
- Микроконтроллеры для фицровой обработки сигналов, где нет FPU модуля и доступны только числа с фиксированной точкой. Примеры можно найти в этом [курсе лекций](https://schaumont.dyn.wpi.edu/ece4703b20/lecture6.html)

## Числа с плавающей точкой (floating point numbers)

Числа в памяти компьютера обычно представляются в виде **чисел с плавающей точкой.**

Число с плавающей точкой представляется в виде

$$ \textrm{number} = \textrm{significand} \times \textrm{base}^{\textrm{exponent}},$$

где *significand* – целое число (aka мантисса или *fraction*), *base* – натуральное число (основание) и *exponent* – целое число (может быть отрицательным), например

$$ 1.2 = 12 \cdot 10^{-1}.$$

## Формат фиксированной точки vs формат плавающей точки

**Q**: какие достоинства и недостатки у рассмотренных форматов представления действительных чисел?

**A**: они подходят для большинства случаев.

- Однако, числа с фиксированной точкой представляют числа из фиксированного интервала и ограничивают **абсолютную** точность.

- Числа с плавающей точкой представлют числа с **относительной** точностью и удобны для случаев, когда числа, которые участвуют в вычислениях, имеют различный порядок (например $10^{-1}$ и $10^{5}$).

- На практике, если скорость не критически важна, стоит использовать float32 или float64.

## IEEE 754
В современных компьютерах представление чисел в виде чисел с плавающей точкой регулируется стандартом [IEEE 754](https://en.wikipedia.org/wiki/IEEE_floating_point), который был опубликован в **1985 г.** До этого компьютеры обрабатывали числа с плавающей точкой по-разному!

IEEE 754 содержит следующие элементы:
- Представление чисел с плавающей точкой (как было описано выше), $(-1)^s \times c \times b^q$.
- Две бесконечности $+\infty$ and $-\infty$
- Два типа **NaN**: "тихий" NaN (**qNaN**) and сигнализирующий NaN (**sNaN**) 
    - qNaN не бросает исключение на уровне блока, производящего операции с плавающей точкой, (floating point unit – FPU), до того как вы проверите результат вычислений
    - значение sNaN бросает исключение из FPU, если вы используете это значение в вычислениях. Этот тип NaN может быть полезен для инициализиции
    - C++11 имеет [стандартный интерфейс](https://en.cppreference.com/w/cpp/numeric/math/nan) для создания разных типов NaN
- Правила **округления**
- Правила для операций типа $\frac{0}{0}, \frac{1}{-0}, \ldots$

Возможные значения определяются через
- основание $b$
- точность $p$ - число цифр в записи
- максимально возможное значение $e_{\max}$

и имеет следующие ограничения

- $ 0 \leq c \leq b^p - 1$
- $1 - e_{\max} \leq q + p - 1 \leq e_{\max}$ 

## Два наиболее используемых формата: single & double

Наиболее часто используются следующие форматы: **binary32** и **binary64** (также известные как **single** и **double**).
В последнее время популярность набирают вычисления с половинной точностью **binary16**.

| Формальное название | Другое название | Основание | Число цифр в записи | Emin | Emax |
|------|----------|----------|-------|------|------|
|binary16| half precision  | 2 | 11 | -14 | + 15 |  
|binary32| single precision | 2 | 24 | -126 | + 127 |  
|binary64| double precision | 2|  53|  -1022| +1023|

Как выглядит формат двойной точности ```double```

<img src="./double64.png">


## Примеры

- Для числа +0
    - *sign* - 0
    - *exponent* - 00000000000
    - *fraction* - все нули
- Для числа -0
    - *sign* - 1
    - *exponent* - 00000000000
    - *fraction* - все нули
- Для +infinity
    - *sign* - 0
    - *exponent* - 11111111111
    - *fraction* - все нули

**Q**: Как будет выглядеть -infinity и NaN ?

## Точность и размер памяти 

**Относительная точность** для различных форматов

- половинная точность или float16: $10^{-3} - 10^{-4}$,
- одинарная точность или float32: $10^{-7}-10^{-8}$,
- двойная точность или float64: $10^{-14}-10^{-16}$.

<font color='red'> Crucial note 1: </font> **float16** занимает **2 байта**, **float32** занимает **4 байта**, **float64** занимает **8 байт**

<font color='red'> Crucial note 2: </font> Обычно в "железе" поддерживается одинарная и двойная точность. Для обучения нейросетей становится популярным использовать половинную точность или даже меньше... Подробности [тут](https://arxiv.org/pdf/1905.12334.pdf)

## Альтернатива стандарту IEEE 754

Недостатки IEEE 754:
- переполнения до бесконечности или нуля
- много разных NaN
- невидимые ошибки округления (об этом ниже)
- точность либо очень хорошая, либо очень плохая
- субнормальные числа – числа между 0 и минимально возможным представимым числом, то есть мантисса субнормального числа начинается с ведущего 0

Концепция posits может заменить числа с плавающей точкой, см [статью](http://www.johngustafson.net/pdfs/BeatingFloatingPoint.pdf)

<img width=600 src="./posit.png">

- выражают числа с некоторой точностью, но указывают предел изменения
- отсутствуют переполнения до бесконечности или нуля
- пример хранения числа

<img width=700 src="./posit_example.png">

<img width=600 src="./posit_regime.png">

### Пример 1: потеря точности при делении

In [1]:
import numpy as np
import random
#c = random.random()
#print(c)
c_d = 0.925924589693
c_s = np.float32(c_d)
print(c_d, c_s)
a = np.float32(8.9)
b = np.float32(c_s / a)
print('{0:10.16f}'.format(b))
print((a * b - c_s) / c_s)

a = 8.9
b = c_d / a
print('{0:10.16f}'.format(b))
print((a * b - c_d) / c_d)

0.925924589693 0.9259246
0.1040364727377892
-6.437311e-08
0.1040364707520225
0.0


### Пример 2: потеря точности при извлечении корня

In [2]:
a = np.float32(5923023934.453443567)
print(a)
b = np.sqrt(a, dtype=np.float32)
print('{0:10.16f}'.format((b ** 2 - a) / a))
print(b ** 2 - a)

5923024000.0
0.0000000864423342
512.0


### Пример 3: потеря точности при вычислении экспоненты

In [6]:
a = np.array(29868.288272099, dtype=np.float16)
b = np.log(a)
print(np.exp(b) - a)

0.0


## Выводы

- Для некоторых чисел обратные функции дают неточный ответ
- Относительная точность должна сохраняться в соответствии со стандартом IEEE
- Это требование не выполняется на многих современных GPU
- Подробный анализ выполнимости стандарта IEEE 754 на GPU от NVIDIA можно найти [здесь](https://docs.nvidia.com/cuda/floating-point/index.html#considerations-for-heterogeneous-world) 