# 浮動小数点数
計算機で扱える数「整数」と「浮動小数点数」について解説する

## そもそも数値計算とは？
* 数値計算（数値解析）とは\\数学の問題を有限桁の浮動小数点数を使って「数値的」に解く．数式処理とは違う
* 数値計算でできること，できないこと
* 数値計算は誤差との戦い
* 整数（int）と浮動小数点数（double）

## 整数型
例えば，Pythonなら整数は

|型| 機械内表現 |
|:-----------|:----------|
| char    | 8bit整数  |
| int    | 32bit整数  |
| long   | 64bit整数 |

のような数値がある．

（注）python 3.x ではintとlongが統合された．

In [1]:
a='a'
print a

a


In [2]:
b=10
print b

10


In [3]:
c=2147483647
print c

2147483647


In [4]:
import sys
print sys.maxint

9223372036854775807


これからintの最大値が9223372036854775807であることがわかり
$2^{63}-1=9223372036854775807$
である．

説明のために32bit整数（int型）を考えると

|ビットパターン | 数値 |
|:-----------:|:----------:|
|01111111111111111111111111111111 | 2147483647|
|00000000000000000000000000000010 | 2|
|00000000000000000000000000000001 | 1|
|00000000000000000000000000000000 | 0|
|11111111111111111111111111111111 | -1|
|11111111111111111111111111111110 |-2|
|10000000000000000000000000000000 |-2147483648|

このような負の数の表現形式を「**2の補数形式**」と呼ぶ．
32個の各bitが次のような重みをもっていると考えられる．

$$\fbox{$-2^{31}$}\fbox{$2^{30}$}\fbox{$2^{29}$}\,\cdots\fbox{$2^{1}$}\fbox{$2^{0}$}$$

2の補数形式の場合，$n$ビットで $-2^{n-1}$〜$2^{n-1}-1$の範囲の数を表現できる．つまり

|型|表現範囲|
|:-|:-:|
|char|-128〜127|
|int|-2147483648〜2147483647|
|long|--9223372036854775808〜9223372036854775807|

の範囲の整数が表せる．


In [5]:
2147483647+1

2147483648

In [6]:
9223372036854775807+1

9223372036854775808L

## 浮動小数点数

**浮動小数点数**（double, float）は，「浮動小数点形式」と呼ばれる形式で表現できる．

例えば，「$1234.5$」を「$1.2345\times 10^3$」のように， 小数点の位置を1番左の数値と左から2番目の数値の間に移動（「正規化」と呼ぶ）し，それに指数を掛けた形式で数を表現する．
この「$1.2345$」の部分を「仮数部」，「$10^3$」の部分（厳密には$~^3$）を「指数部」という．

浮動小数点数は仮数部の長さ，指数部の長さ，指数が2，10，16など，多様な規格が考えられる．
そこで1985年にWilliam Kahanが中心となって

[IEEE 754: Standard for Binary Floating-Point Arithmetic](https://ja.wikipedia.org/wiki/IEEE_754)

という標準規格が制定された．最近では世に出るハードウェアのほぼ全てがこの規格に従っている．

### 倍精度 (double, float)
倍精度は，符号（$\pm$）に1ビット．指数部に11ビット，仮数部に 52ビットを使う．
全部で64ビット=8バイトである．

$\fbox{1（符号）}\fbox{11（指数部）}\fbox{52（仮数部）}$

* 符号は，0なら正，1なら負
* 指数部は「$\times 2^{\mbox{指数}}$」の指数の部分に$1023$を加えたものが11ビット符号無しの整数の形で格納されている
* 仮数部は，実際の仮数部の先頭の「1」を取り除いた残りが格納されている．仮数部の先頭は必ず1にしてメモリに格納しないことで1ビット分精度を稼いでいる

数値$x$は

$$x=\pm\; 1.d_1d_2\cdots d_{52}\times 2^{m}=\pm\left(\frac{1}{2^0}+\frac{d_1}{2^1}+\frac{d_2}{2^2}+\cdots+\frac{d_{52}}{2^{52}}\right)2^{e}_{(10)}$$

と書ける（$-1022\le e\le 1023$，$m$：$e+1023$の2進表現）．

例えば，5.25は2進数で書くと
$$
	101.01_{(2)} = \left(\frac{1}{2^0}+\frac{0}{2^1}+\frac{1}{2^2}+\frac{0}{2^{3}}+\frac{1}{2^4}\right)\times 2^2_{(10)}
$$
であるから，計算機内では

$\fbox{0}\fbox{10000000001}\fbox{0101000000000000000000000000000000000000000000000000}$

のように格納されている。指数部の「1000000001」は、「2+1023=1025」 を2進数にしたもの．

これは**正規化数**と呼ばれる数の範囲．

実際にpythonで浮動小数点数を見てみよう．

In [11]:
import struct
def binary(num):
    return ''.join(bin(ord(c)).replace('0b', '').zfill(8) for c in struct.pack('!d', num))
x = 5.25
print binary(x)

0100000000010101000000000000000000000000000000000000000000000000


In [14]:
xs = struct.pack('>d', x)
xn = struct.unpack('>Q', xs)[0]
sign = (xn >> 63)
print sign
exp = (xn >> 52) & ((1<<11)-1)
print exp
frac = xn & ((1<<52)-1)
print bin(frac)
frac2 = 1 + frac/float(1<<52)
print frac2
print (-1)**sign * frac2 * (2 ** (exp-1023))

0
1025
0b101000000000000000000000000000000000000000000000000
1.3125
5.25


符号はsign = 0で正の数，　　
指数部はexp-1023=1025-1023=2，  
仮数部はfrac=(101000000000000000000000000000000000000000000000000)$_2$で2進数表示され，実際の値は1.3125，  
元の浮動小数点数に戻すと

$$(-1)^{\mathrm{sign}}*\mathrm{frac2}*2^{\mathrm{exp}-1023}=5.25$$

で確かに元の数に戻ることがわかる．

次に$e$の範囲$-1022\le e\le 1023$に注目する．

$e+1023$が11ビット符号無しの整数なら範囲は$0$〜$2047$であるが，$e$範囲から
$e+1023=0$のときと$e+1023=2047$のときが使われていない．

これらは特殊な数を表すのに使われる．それらは

* 零
* 無限大 (Inf)
* NaN (Not a Number)
* 非正規化数

と呼ばれる．

#### 零
指数部が$e+1023=0$かつ仮数部が0のとき.

$$\pm\; 0.00\cdots 0\times 2^{0}={\pm\left(\frac{0}{2^0}+\frac{0}{2^1}+\frac{0}{2^2}+\cdots+\frac{0}{2^{52}}\right)2^{-1023}}_{(10)}.$$


#### 無限大
$e+1023=2047$かつ仮数部が0のとき，$\pm\infty$を表す．

$$\pm\; 0.00\cdots 0\times 2^{m}={\pm\left(\frac{0}{2^0}+\frac{0}{2^1}+\frac{0}{2^2}+\cdots+\frac{0}{2^{52}}\right)2^{1024}}_{(10)},$$

$m$: 2047の2進表現.

In [16]:
x = float("inf")
print binary(x)

0111111111110000000000000000000000000000000000000000000000000000


#### NaN (Not a Number)
$e+1023=2047$かつ仮数部が0でないとき．

負数の平方根など，不可能な演算の結果を表すのに使われる．

In [17]:
x = float("nan")
print x
print binary(x)

x = float("inf") - float("inf")
print x
print binary(x)

nan
0111111111111000000000000000000000000000000000000000000000000000
nan
1111111111111000000000000000000000000000000000000000000000000000


#### 非正規化数
指数部が$e+1023=0$かつ仮数部が0でないとき，

仮数部の最初の桁を$0$にして

$$\pm\; 0.d_1d_2\cdots d_{52}\times 2^{0}={\pm\left(\frac{\color{red}0}{2^0}+\frac{d_1}{2^1}+\frac{d_2}{2^2}+\cdots+\frac{d_{52}}{2^{52}}\right)2^{{\color{red}{-1022}}}}_{(10)}.$$

という数の表現をする．
非正規化数は文字通り「正規化していない」数．

#### 正規化数の最大最小
正の正規化数の最大の数は，$e+1023=2046$, かつ仮数部のビットが全て1のとき．

$${\left(\frac{{1}}{2^0}+\frac{1}{2^1}+\frac{1}{2^2}+\cdots+\frac{1}{2^{52}}\right)2^{{1023}}}_{(10)}= 2^{1024}-2^{971}\approx10^{308.25}$$

であり，これを1ビットでも超えたら無限大になる．これを**オーバーフロー**という．



In [19]:
x = (2.**53 - 1)*2.**971
print x
print binary(x)
x = (2.**53)*2.**971
print x
print binary(x)

1.79769313486e+308
0111111111101111111111111111111111111111111111111111111111111111
inf
0111111111110000000000000000000000000000000000000000000000000000


正の正規化数の最小の数は，$e+1023=1$, かつ仮数部のビットが全て0のとき．

$${\left(\frac{{1}}{2^0}+\frac{0}{2^1}+\frac{0}{2^2}+\cdots+\frac{0}{2^{52}}\right)2^{-1022}}_{(10)}= 2^{-1022}\approx10^{-307.65}$$

であり，これを下回ると**アンダーフロー**というが，IEEE 754 では，ここでアンダーフローさせないで「悪あがき」をする．


In [20]:
x = 2.**(-1022)
print x
print binary(x)

2.22507385851e-308
0000000000010000000000000000000000000000000000000000000000000000


#### 漸近アンダーフロー
正規化数の最小数の最終bitを1だけ減じると

$${\left(\frac{{0}}{2^0}+\frac{1}{2^1}+\frac{1}{2^2}+\cdots+\frac{1}{2^{52}}\right)2^{-1022}}_{(10)}$$

となり，これを正規化すると

$${\left(\frac{{1}}{2^0}+\frac{1}{2^1}+\frac{1}{2^2}+\cdots+\frac{0}{2^{52}}\right)2^{-1023}}_{(10)}$$

となって，指数部の下限$-1022\le e$を超えてしまう．
そこで，「$2^{-1022}$を下回ったら正規化をやめて指数部を$2^{-1022}$に固定して仮数部の最初の桁を0としてみて格納する」 とする．これが非正規化数であり，

$${\left(\frac{{0}}{2^0}+\frac{1}{2^1}+\frac{1}{2^2}+\cdots+\frac{1}{2^{52}}\right)2^{-1022}}_{(10)}$$
$${\left(\frac{{0}}{2^0}+\frac{1}{2^1}+\frac{1}{2^2}+\cdots+\frac{0}{2^{52}}\right)2^{-1022}}_{(10)}$$
$$\vdots$$
%$$\left(\frac{{0}}{2^0}+\frac{1}{2^1}+\frac{0}{2^2}+\cdots+\frac{0}{2^{52}}\right)2^{-1022}$$
$${\left(\frac{{0}}{2^0}+\frac{0}{2^1}+\frac{1}{2^2}+\cdots+\frac{1}{2^{52}}\right)2^{-1022}}_{(10)}$$
$$\vdots$$
$${\left(\frac{{0}}{2^0}+\frac{0}{2^1}+\frac{0}{2^2}+\cdots+\frac{1}{2^{52}}\right)2^{-1022}}_{(10)}=2^{-1074}\approx10^{-323.31}$$

のような数が表現できる．ただし，$2^{-1022}$と$2^{-1074}$の間の数は，本来53ビットあるべき仮数部の長さが52ビット〜1ビットまで減ってしまっており，精度が低下していることに注意．

##### まとめると
倍精度は

||仮数部が0|仮数部が0でない|
|:-:|:-:|:-:|
|$e+1023=0$            | $\pm0$      | 非正規化数|
|$1\le e+1023\le 2046$ | 正規化数     | 正規化数 |
|$e+1023=2047$         | $\pm\infty$ | NaN|


単精度 (float, float32) は


||仮数部が0|仮数部が0でない|
|:-:|:-:|:-:|
|$e+127=0$            | $\pm0$      | 非正規化数|
|$1\le e+127\le 254$ | 正規化数     | 正規化数 |
|$e+127=255$         | $\pm\infty$ | NaN|

In [27]:
x = 2.**(-1022)
print x
print binary(x)

x = (1-2.**(-52))*2.**(-1022)
print x
print binary(x)

x = 2.**(-1074)
print x
print binary(x)

x = 2.**(-1074)/2.
print x
print binary(x)

2.22507385851e-308
0000000000010000000000000000000000000000000000000000000000000000
2.22507385851e-308
0000000000001111111111111111111111111111111111111111111111111111
4.94065645841e-324
0000000000000000000000000000000000000000000000000000000000000001
0.0
0000000000000000000000000000000000000000000000000000000000000000


今後，浮動小数点数全体の集合を$\mathbb{F}$と表すことにする．特に断りがなければ，浮動小数点数は倍精度浮動小数点数（64bit）とする．IEEE754では**binary64**とも呼ばれている．

<div align="right">[高安亮紀](http://www.risk.tsukuba.ac.jp/~takitoshi/)，2016年12月7日</div>