## Python で始める機器分析データの解析とケモメトリックス  
### 3.6. 仮説検定

In [None]:
import numpy
import pandas
from matplotlib import pyplot

統計モジュール：scipy.stats  
https://docs.scipy.org/doc/scipy/reference/stats.html

In [None]:
#p.058
from scipy import stats

In [None]:
#p.058
df = pandas.read_csv("prop3.csv", header=0, index_col=0)
x = df.iloc[:, 0]  # 水分
y = df.iloc[:, 1]  # 油分

In [None]:
#p.058
x1 = x[x < x.median()]  # 水分が少ないトウモロコシ
x2 = x[x.median() < x]  # 水分が多いトウモロコシ

In [None]:
#p.058
y1 = y[x1.index]  # 水分が少ないトウモロコシの油分
y2 = y[x2.index]  # 水分が多いトウモロコシの油分

In [None]:
#p.058
pyplot.xlim(0.5, 2.5)
pyplot.errorbar(1, y1.mean(), fmt="o", yerr=y1.std(ddof=1), capsize=5)
pyplot.errorbar(2, y2.mean(), fmt="o", yerr=y2.std(ddof=1), capsize=5)
pyplot.show()

Shapiro-Wilk 検定：scipy.stats.shapiro  
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.shapiro.html  

In [None]:
#p.059
print(stats.shapiro(y1))
print(stats.shapiro(y2))

Q-Q プロット：scipy.stats.probplot  
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.probplot.html

In [None]:
#p.060
stats.probplot(y1, dist="norm", plot=pyplot)
stats.probplot(y2, dist="norm", plot=pyplot)
pyplot.show()

t 検定  
1群：scipy.stats.ttest_1samp  
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html  
対応のある2群：scipy.stats.ttest_rel  
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html  
対応のない2群：scipy.stats.ttest_ind  
https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html

In [None]:
#p.062
# print(stats.ttest_1samp(y1,3.543)) # 1群
# print(stats.ttest_rel(y1,y2)) #対応のある2群
print(stats.ttest_ind(y1, y2, equal_var=False))  # 対応のない2群

F 検定

In [None]:
#p.062
def ftest(a, b):
    f = numpy.var(a, ddof=1) / numpy.var(b, ddof=1)
    p = stats.f.cdf(f, len(a) - 1, len(b) - 1)
    p = min(p, 1 - p) * 2
    return f, p
print(ftest(y1, y2))

分散分析 (ANOVA)  
scipy.stats.f_oneway: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.f_oneway.html

In [None]:
x_1 = x[x < x.quantile(q=1 / 3)]
x_2 = x[(x.quantile(q=1 / 3) < x) & (x < x.quantile(q=2 / 3))]
x_3 = x[x.quantile(q=2 / 3) < x]
y_1 = y[x_1.index]
y_2 = y[x_2.index]
y_3 = y[x_3.index]
stats.f_oneway(y_1, y_2, y_3)

(c) Shigeaki Morita