<a href="https://colab.research.google.com/github/takatakamanbou/Data/blob/2023/ex11notebookA.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Data2023 ex11notebookA

<img width=64 src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/Data-logo09.png"> https://www-tlab.math.ryukoku.ac.jp/wiki/?Data/2023



----
## 誤差と有効数字の話
----

この授業で扱っているようなデータ，特に量的データに現れる数値について，「その値ってどのくらい信頼できるんだろう？ **誤差**があるんじゃないだろうか？ 数値の何桁目まで信じていいんだろう？」ってことを考えて，**有効数字** という考え方を簡単に説明します．


----
### 誤差と有効数字

あるひとの100m走のタイムを測ると10.95秒だったとします．
このときの100mの平均速度を計算してみると，




In [None]:
100 / 10.95

という結果が得られます．単位は [m/s] です．
この場合，小数点以下ずいぶんたくさんの桁の数が得られていますが，これらの数は正確なものと考えられるでしょうか？意味があるといえるでしょうか？


ストップウォッチを押すタイミングがほんの少しずれて，測定されたタイムが10.94秒だったとすると，平均速度は

In [None]:
100 / 10.94

ということになります．一方，10.96秒だったとすると，今度は

In [None]:
100 / 10.96

となります．


測定タイムが 10.95秒から $=1/1000$ 秒だけずれて
$10.95 + \frac{1}{1000} = 10.951$ 秒になった場合は，

In [None]:
100 / (10.95 + 1.0/1000)

です．元の値と見比べると，小数第2位までは一致してますが，第3位以降は違っています．

人間がストップウォッチを手で押しているとしたら，測定されるタイムが
$1/1000$ 秒とか $7/1000$ 秒とか $1/100$ 秒くらいずれるなんてことは，当たり前に起こりそうです．つまり，測定されるタイムの値は，真の値からある程度ずれていると考えられます．このようなずれは，**誤差**(**error**) と呼ばれます．

多くの場合，何かを測定したりして得られる値には誤差が含まれているのが当たり前です．データを扱う際には，どれくらいの大きさの誤差が含まれているかをよく考えることが大事です．

そのため，数値を表す際に，その値がどれくらい正確か／どれくらい不確かか，が分かるように，値の表示を信頼できる桁までにとどめて，不確かな桁の数は「丸めて」しまう（四捨五入や切り捨て等によってそれより下位の桁の数を $0$ にしてしまう）ということが行われます．





上記の例で，ストップウォッチで測ったタイムに含まれる誤差が $1/100$ 秒よりは小さそうなら，平均速度は小数第2位くらいまでは信頼できるでしょうか．
そう考えた場合，`9.132420091324201` という平均速度の値を小数第3位で四捨五入して，
`9.13` と表記します．

この場合，`9`, `1`, `3` の3桁の数は確からしいけれど，4桁目以降の数は不確かだと考えていることになります．このとき，この値は，「3桁目まで有効」という意味で，「**有効数字** 3桁で表している」と言います．

誤差がもっと小さく，平均速度は小数第3位まで確からしいと言えそうなら，有効数字4桁で表して，「平均速度は `9.132` [m/s] 」のように表記する，というわけです．

ちなみに，この例でタイムが 9.58 秒だったひとの平均速度は

In [None]:
100 / 9.58

と計算されます．平均速度を「有効数字4桁」で表すと決めたなら，`1`, `0`, `4`, `3` の桁まで確からしいとして，`8`の桁（小数第3位）を四捨五入するので，「平均速度は `10.44`[m/s]」とします．

----
### 例その2

有効数字の考え方は，整数のデータしか登場しないような場合でも有効です．


| $x_1$ | $x_2$ | $x_3$ | $x_4$ | $x_5$ | $x_6$ | $x_7$ | $x_8$ | $x_9$ |
| ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- | ---- |
| $80$ | $82$ | $80$ | $85$ | $49$ | $65$ | $47$ | $56$ | $71$ |


上記のようなデータがあったとします．それぞれの値は，0から100までの整数値をとります．

このとき，これらのデータの平均は，

In [None]:
import numpy as np
X = np.array([80, 82, 80, 85, 49, 65, 47, 56, 71])
np.mean(X)

となります．この場合，サンプルサイズが $9$ ですので，誰かひとりの値が1変化すると，平均は $\frac{1}{9}$ 変化します．

In [None]:
X[0] = 79  # 1番のひとの値が1減った場合
print(np.mean(X))
X[0] = 81  # 1番のひとの値が1増えた場合
print(np.mean(X))


このことから考えると，上記のように小数点以下の桁をたくさん表示するのは意味がないし，下の方の桁まで確からしいと誤解される危険もあります．
有効数字3桁として，68.3 と表記するのが適切でしょう．

以上の話から，**電卓やコンピュータが計算した値を何も考えず全桁表記することのは適切ではない場合がある**，ということがわかっていただけるでしょうか．
有効数字を何桁にするかを明確に決めるのは難しいですが，どれくらいの誤差がありそうかを意識して，おおよそ適当そうな桁数で表示するよう注意しましょう．

----
### 誤差の要因

誤差が生じる要因には様々なものがあります．大まかに分類して，ごく簡単に説明しておきます．



#### 測定誤差

値を測定する際に生じる誤差．
測定に使う定規の長さに狂いがある，温度などの影響で微妙に伸び縮みする，目盛を読み取る際にばらつきが生じる，etc.

下図の温度計の目盛を人間が読もうとしたら，ひとによって少しづつ異なる値を報告するでしょう．

<img src="https://www-tlab.math.ryukoku.ac.jp/~takataka/course/Data/thermometer.png">


#### 計算誤差

計算機やコンピュータを使用して値を処理する際に生じる誤差．
詳しいことは，2年次科目「数値計算法及び演習」などで学ぶことになるでしょう．


計算誤差はその発生要因によってさらに細かく分類できますが，ここでは説明を省略します．以下に，計算誤差の一例を示しておきます．


In [None]:
# 変数 x を 0 で初期化して，そこに 0.1 を加えることを10回繰り返す
x = 0
for i in range(10):
    x += 0.1
print(x)

このコードは，$0.1$ を 10 個加えた値を計算しようとしていますが，結果はぴったり $1$ になっていません．これは，$0.1$ の厳密な値をコンピュータが表せない（誤差がある）ために生じる現象です．

#### 統計誤差

日本に住む人全員の身長の平均値を求めたい，けれどどそれは不可能，ということで，ランダムに1万人を選んで身長を測定させてもらったとしましょう．そのようにして得られた身長データから平均値を求めたとしても，その値は，真の平均値からずれるでしょう．そのような誤差のことを指します．

----
### 指数表記の使用


有効数字を考えて数値を表記する場合，値の大きさによっては混乱を招く場合があります．



> 例1: `123456.789` を有効数字4桁で表すと `123500` となるが，これだと，`123500` を有効数字6桁で表した場合などと区別がつかない．
`120000.345` を有効数字4桁で表すと `120000` となり，さらに深刻（有効数字2桁？6桁？）．


> 例2: `0.00123456789` や `0.00299999999` のような値をとる（値が小さくて，小数第1位や第2位は常に0である）場合，上位の桁の3つの `0` は有効数字とは言えず，小数3位から有効数字を考えるべきである．
つまり，有効数字3桁なら `0.00123` や `0.00300` ということになる．
しかし，これだと，上位の桁の `0` は有効数字でないことがわからない．

このような問題を解決する方法として，指数による表記を用いることがよくあります．例1の場合，それぞれ

$$ 1.235 \times 10^5$$

および

$$ 1.200 \times 10^5 $$

と表記します．$\times$ の前の数は，整数部が $1$ から $9$ となるようにし，桁数は有効数字の桁数にあわせます．有効数字が何桁かわかるように，後者のような例でも $0$ を省略しないで書きます．

このような表記法は，**科学的記数法** と呼ばれることがあります．


例2の場合は，
$$ 1.23 \times 10^{-3} $$
および
$$ 3.00 \times 10^{-3} $$
と表記します．

なお，有効数字の話とは直接は関係ありませんが，コンピュータで実数を扱う場合にもこのような表記が用いられます．ただし，使える文字・記号の制限から，

- $ 1.234 \times 10^5$ → `1.234e+5`
- $ 1.23 \times 10^{-3} $ → `1.23e-3`

のように表記されます（`e`のかわりに大文字の`E`を使うこともあります）．
