## 1.1.1 A simple worked example

In [1]:
2.0 / 3

0.6666666666666666

In [2]:
1e20 + 1 - 1e20

0.0

In [3]:
1e-3

0.001

Using
$$
    a^2-b^2\equiv(a+b)(a-b)
$$
Compare
$$
    \frac{1}{\sqrt{1+x}-\sqrt{x}}=\sqrt{1+x}+\sqrt{x}
$$

In [4]:
from math import sqrt

In [5]:
def func(x):
    num = sqrt(1 + x) + sqrt(x)
    den = sqrt(1 + x) - sqrt(x)
    return 1./den - num

In [6]:
for x in [1e-20, 1, 1e3, 1e10, 1e20]:
    print(x, "--", func(x))

1e-20 -- 0.0
1 -- -4.440892098500626e-16
1000.0 -- -7.219114195322618e-12
10000000000.0 -- 0.22332640280365013


ZeroDivisionError: float division by zero

## 1.1.2 Machine arithmetics. Representation of real numbers.
### 浮動小数点数
浮動小数点数は仮数(mantissa)と指数によって表される。
仮数とは例えば、
$$
    m\times 2^p \tag{1}
$$
という式が与えられた時、mが仮数となる。
コンピュータでは浮動小数点数は(1)式の形で表される。ただし、仮数$m$は
$$
    \frac{1}{2} \leq |m| < 1
$$
である。仮数$m$はt桁の二進数で表される。
$$
    m=\pm\mu_{1}\mu_{2}\cdots\mu_{t} \\
    m=\pm(\mu_{1}\times{2^{-1}}+\mu_{2}\times{2^{-2}}+\cdots+\mu_{t}\times{2^{-t}})
$$
指数$p$は固定幅整数型(fixed-width integer)
$$
    p=\gamma_{0}\gamma_{1}\gamma_{2}\cdots\gamma_{L}
$$
であり、$\gamma_{0}$は符号ビットを表す。
従って浮動小数点数の二進法による表現は
$$
    \pm\gamma_{0}\gamma_{1}\gamma_{2}\cdots\gamma_{L}\mu_{1}\mu_{2}\cdots\mu_{t}
$$
となる。
<div style="text-align: center;">
    仮数部の表し方
</div>
<img src="img/mantissa.png" alt="仮数部" title="仮数部">

<div style="text-align: center;">
    指数部の表し方
</div>
<img src="img/exponential.png" alt="alt テキスト" title="キャプションテキスト">

指数部はバイアス値$127(=01111111)$を足して考えるので、例えば$2^0(00000000)$を表すときの指数部は$01111111$となる。

IEEE754標準では
- 32bit単精度 $-$ 23bit仮数，8bit指数，1符号ビット
- 64bit倍精度 $-$ 52bit仮数，11bit指数，1符号ビット
- 拡張倍精度
などがある。

### 特別な浮動小数点数
- inf(infinities)

infは次のように定義される。
$$
    x < {\rm inf}\hspace{15pt}\forall\ {\rm finite}\ x
$$
同様に$-$infも定義される。
- nan(Not-a-number)

nanは次のような場合を指す。
$$
    x={\rm nan}\hspace{15pt}{\rm iff}\hspace{15pt}x\neq x
$$
nanは例えば$1/0$のような不適切な演算の結果を表す際に用いられる。

## 1.1.3 Machine epsilon. Over and underflow.
浮動小数点数
$$
    \pm\mu_{1}\mu_{2}\cdots\mu_{t}\times 2^p
$$
において、指数$p$を持つ二つの連続した値の距離(差)は
$$
    2^{p-t}
$$
となる。したがって、コンピュータでは$2^{p-t}$よりも細かい精度を扱うことはできないので、どんな計算においても丸め誤差が発生してしまう。
例えば、1.0を浮動小数点表示すると
<div style="text-align: center;">
    1.0の浮動小数点表示
</div>
<img src="img/1.png" alt="1.0" title="1.0の浮動小数点表示">
となるが、コンピュータ上で扱えるこの次に大きな数は
$$
    00111111100000000000000000000001\ (=2^{-23})
$$
となる。したがって、このような場合コンピュータは$2^{-23}$よりも細かく数を刻むことはできないので、丸め誤差が生じてしまうこととなる。

***
### 誤差が生じてしまうような例(60fpsのゲーム)
例えば、60fpsのゲームで一日(86400秒)が経過した後のことを考える。
86400の指数部は16であるから、コンピュータ上で扱える86400の次に大きな数は
$$
    2^{16-23}\ (=0.0078125)
$$
となる。したがって、60fpsのゲームにおいて86400秒に$1/60(=0.1666666\cdots)$秒を加算しようとしても、実際には$0.015625(=0.0078125\times 2)$秒しか加算することができず、誤差がどんどん大きくなってしまう。
***

丸め誤差の絶対値$2^{p-t}$は指数部$p$に飲み依存するが、丸め誤差の相対値
$$
    \simeq\frac{2^{p-t}}{2^p}=2^{-t}
$$
は仮数部のbit幅にのみ依存する。

<font color="Red">***マシンイプシロン***</font>は
$$
    1+\epsilon\neq1
$$
となるような最小の数$\epsilon>0$のことを指す。

### Underflow
$$
    \pm(\mu_{1}\times{2^{-1}}+\mu_{2}\times{2^{-2}}+\cdots+\mu_{t}\times{2^{-t}})\times 2^p
$$
指数$p$の最大値$p_{max}$は、指数部が$L\, bit$で表されるとき
$$
    p_{max}= 2^{L-1}
$$
となる。したがって、
$$
    X_0=2^{-p_{max}}\times 2^{-1}=2^{-p_{max}-1}
$$
よりも小さな数は浮動小数点数で表記することはできない。実際の計算機では指数部が00000000の時などは特殊な値として扱われるので浮動小数点数で表すことのできる下限値はもう一桁大きい？

### Machine zero
<font color="Red">***Machine zero***</font>は
$$
    X_0/2=0
$$
となるような最小の0でない数$X_0$のことである。
通常は
$$
    X_0 \ll \epsilon
$$
である。

### Machine infinity
指数の最大値は$p_{max}=2^{L-1}$であるから
$$
    x>X_{\infty}=2^{p_{max}}
$$
となるような$x$を浮動小数点数で表すことはできない。
<font color="Red">***Machine infinity***</font>は
$$
    X_{\infty}\times 2
$$
がオーバーフローをしてしまうような最小の0でない数$X_\infty$である。

## 1.1.4 A crude estimate of the machine epsilon.

In [12]:
import numpy as np

eps = 1.0
i = 0
while np.float32(1 + eps) != 1:
    print(eps)
    eps = eps / 2
    i += 1
print("32bitの浮動小数点数では1+2^{}は1と同一です。".format(-i))

1.0
0.5
0.25
0.125
0.0625
0.03125
0.015625
0.0078125
0.00390625
0.001953125
0.0009765625
0.00048828125
0.000244140625
0.0001220703125
6.103515625e-05
3.0517578125e-05
1.52587890625e-05
7.62939453125e-06
3.814697265625e-06
1.9073486328125e-06
9.5367431640625e-07
4.76837158203125e-07
2.384185791015625e-07
1.1920928955078125e-07
32bitの浮動小数点数では1+2^-24は1と同一です。
