## Python で始める機器分析データの解析とケモメトリックス  
### 3.5. エラーバー  
matplotlib.pyplot.errorbar  
https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.errorbar.html

In [None]:
import numpy
import pandas
from matplotlib import pyplot
df = pandas.read_csv("prop3.csv", header=0, index_col=0)
ar = df.iloc[:, 0].tolist()

エラーバーの追加（標準偏差）

In [None]:
x = 1  # 横軸の値
y = numpy.mean(ar)  # 縦軸の値（1次元配列 ar の平均）
pyplot.scatter(x, y)  # 値のプロット
error = numpy.std(ar, ddof=1)  # エラーバーの範囲（標準偏差）
pyplot.errorbar(x, y, yerr=error)  # エラーバーの追加

pandas.DataFrameオブジェクトの平均にエラーバーの追加（標準偏差）

In [None]:
error = df.std(ddof=1)  # エラーバーの範囲（標準偏差）
df.mean().plot.bar(yerr=error)  # エラーバーのプロット
print(error)

自由度が n-1 である t 分布の確率密度関数 (PDF) と累積分布関数 (CDF) 
$$
t = \frac{\bar{x} - \mu}{u \big/ \sqrt{n}}
$$
scipy.stats.t  
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html

In [None]:
from scipy.stats import t
n = len(ar)  # サンプルサイズ
x = numpy.arange(-4, 4, 0.1)
y = t(n - 1).pdf(x)  # 確率密度関数 (PDF)
pyplot.plot(x, y, label="PDF")
y = t(n - 1).cdf(x)  # 累積分布関数 (CDF)
pyplot.plot(x, y, label="CDF")
pyplot.legend()

パーセント点

In [None]:
print(t(n - 1).ppf(0.025))  # 自由度が n-1 = 79 であるt分布の2.5%点
print(t(n - 1).ppf(0.975))  # 自由度が n-1 = 79 であるt分布の97.5%点

エラーバーの追加（95%信頼区間）
$$
\bar{x} - x_{97.5\%} \frac{u}{\sqrt{n}} \leq \mu \leq \bar{x} + x_{97.5\%} \frac{u}{\sqrt{n}}
$$

In [None]:
interval = 0.95  # 信頼区間
x = 1
y = numpy.mean(ar)
pyplot.scatter(x, y)
error = (t(len(ar) - 1).ppf(1 - (1 - interval) / 2) * numpy.std(ar, ddof=1) / len(ar) ** 0.5)  # エラーバーの範囲（信頼区間）
pyplot.errorbar(x, y, yerr=error)

pandas.DataFrameオブジェクトの平均にエラーバーの追加（95%信頼区間）

In [None]:
interval = 0.95  # 信頼区間
error = (t(len(df) - 1).ppf(1 - (1 - interval) / 2) * df.std(ddof=1) / len(df) ** 0.5)  # エラーバーの範囲（信頼区間）
df.mean().plot.bar(yerr=error)
print(error)

(c) Shigeaki Morita