# url: http://www.turbare.net/transl/scipy-lecture-notes/packages/statistics/index.html#formulas-to-specify-statistical-models-in-python

# 3.1. Python での統計

In [1]:
import pandas
data = pandas.read_csv('/content/brain_size.csv', sep=';', na_values=".")
display(data)

Unnamed: 0.1,Unnamed: 0,Gender,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
0,1,Female,133,132,124,118.0,64.5,816932
1,2,Male,140,150,124,,72.5,1001121
2,3,Male,139,123,150,143.0,73.3,1038437
3,4,Male,133,129,128,172.0,68.8,965353
4,5,Female,137,132,134,147.0,65.0,951545
5,6,Female,99,90,110,146.0,69.0,928799
6,7,Female,138,136,131,138.0,64.5,991305
7,8,Female,92,90,98,175.0,66.0,854258
8,9,Male,89,93,84,134.0,66.3,904858
9,10,Male,133,114,147,172.0,68.8,955466


In [2]:
import numpy as np
t = np.linspace(-6, 6, 20)
sin_t = np.sin(t)
cos_t = np.cos(t)
pandas.DataFrame({'t': t, 'sin': sin_t, 'cos': cos_t})

Unnamed: 0,t,sin,cos
0,-6.0,0.279415,0.96017
1,-5.368421,0.792419,0.609977
2,-4.736842,0.999701,0.024451
3,-4.105263,0.821291,-0.570509
4,-3.473684,0.326021,-0.945363
5,-2.842105,-0.29503,-0.955488
6,-2.210526,-0.802257,-0.596979
7,-1.578947,-0.999967,-0.008151
8,-0.947368,-0.811882,0.583822
9,-0.315789,-0.310567,0.950551


In [3]:
display(data.shape)
display(data.columns)
display(data['Gender'].head())
display(data[data['Gender'] == 'Female']['VIQ'].mean())
display(data.describe(include = 'all'))

(40, 8)

Index(['Unnamed: 0', 'Gender', 'FSIQ', 'VIQ', 'PIQ', 'Weight', 'Height',
       'MRI_Count'],
      dtype='object')

0    Female
1      Male
2      Male
3      Male
4    Female
Name: Gender, dtype: object

109.45

Unnamed: 0.1,Unnamed: 0,Gender,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
count,40.0,40,40.0,40.0,40.0,38.0,39.0,40.0
unique,,2,,,,,,
top,,Female,,,,,,
freq,,20,,,,,,
mean,20.5,,113.45,112.35,111.025,151.052632,68.525641,908755.0
std,11.690452,,24.082071,23.616107,22.47105,23.478509,3.994649,72282.05
min,1.0,,77.0,71.0,72.0,106.0,62.0,790619.0
25%,10.75,,89.75,90.0,88.25,135.25,66.0,855918.5
50%,20.5,,116.5,113.0,115.0,146.5,68.0,905399.0
75%,30.25,,135.5,129.75,128.0,172.0,70.5,950078.0


In [4]:
# groupby: データフレームをカテゴリ変数に従って分割します:
groupby_gender = data.groupby('Gender')

for gender, value in groupby_gender['VIQ']:
    display((gender, value.mean()))

# groupby_gender は強力なオブジェクトで、データフレームをグループ分けしたものに対する多くの演算結果を示してくれます。
display(groupby_gender.mean())
display(groupby_gender.median())
display(groupby_gender.count())
display(groupby_gender.sum())

# groupby_gender に対して tab 補完することでより多くのことがわかります。
# 他のグループ化関数として median, count (様々な部分集合内での欠損値の量を確認するのに便利) あるいは sum があります。
# グループ化は遅延評価されるので、集約関数が適用されるまで何も実行されません。

('Female', 109.45)

('Male', 115.25)

Unnamed: 0_level_0,Unnamed: 0,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Female,19.65,111.9,109.45,110.45,137.2,65.765,862654.6
Male,21.35,115.0,115.25,111.6,166.444444,71.431579,954855.4


Unnamed: 0_level_0,Unnamed: 0,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Female,18.0,115.5,116.0,115.0,138.5,66.0,855365.0
Male,21.5,118.0,110.5,117.0,172.0,70.5,947241.5


Unnamed: 0_level_0,Unnamed: 0,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Female,20,20,20,20,20,20,20
Male,20,20,20,20,18,19,20


Unnamed: 0_level_0,Unnamed: 0,FSIQ,VIQ,PIQ,Weight,Height,MRI_Count
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Female,393,2238,2189,2209,2744.0,1315.3,17253092
Male,427,2300,2305,2232,2996.0,1357.2,19097108


## 仮説検定: 2つのグループの比較

In [5]:
# 単純な statistical tests には scipy のサブモジュール scipy.stats が利用できます:
# url: https://en.wikipedia.org/wiki/Statistical_hypothesis_testing
# url: https://docs.scipy.org/doc/
# url: https://docs.scipy.org/doc/scipy/reference/stats.html#module-scipy.stats

from scipy import stats
# Scipy は広範なライブラリです。手っ取り早くライブラリ全体の概要をつかむには scipy の章を見ましょう。

# データの母集団平均が与えられた値と等しい見込みがあるかを検定します(厳密にいえば、観測値が与えられた母集団平均を持つ Gauss 分布に従うか)。
# この関数は T statistic, と p-value を返します(関数の help をみてください):
stats.ttest_1samp(data['VIQ'], 0)
# url: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_1samp.html#scipy.stats.ttest_1samp
# url: https://en.wikipedia.org/wiki/Student%27s_t-test
# url: https://en.wikipedia.org/wiki/P-value

# p値が 10^-28 なので IQ (VIQ 測定値) の母集団平均は 0 ではないと主張できます。

TtestResult(statistic=30.08809997084933, pvalue=1.3289196468727879e-28, df=39)

## 2標本t検定: 母集団間の差異を検定

In [6]:
# 上で男性、女性の母集団で VIQ の平均の値が違うことを確認しました。
# これが有意な違いなのか確認するため scipy.stats.ttest_ind() で2つの母集団に対して t検定します:
# url: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_ind.html#scipy.stats.ttest_ind

female_viq = data[data['Gender'] == 'Female']['VIQ']
male_viq = data[data['Gender'] == 'Male']['VIQ']
stats.ttest_ind(female_viq, male_viq)

TtestResult(statistic=-0.7726161723275012, pvalue=0.44452876778583217, df=38.0)

## 対応のある検定: 同じ個体に繰り返し測定

In [7]:
# PIQ, VIQ そして FSIQ は3つの IQ の指標を与えます。FISQ と PIQ が有意に異なるかを検定しましょう。2つの標本検定が利用できます:
display(stats.ttest_ind(data['FSIQ'], data['PIQ']))

# この方法の問題点は、観測値の間の関連を無視していることです: FSIQ と PIQ は同じに対して測定されています。
# そのため被験者間の変動によって分散が交絡します、そしてそれは “対応のある検定”, または “repeated measures test” で取り除くことができます:
display(stats.ttest_rel(data['FSIQ'], data['PIQ']))

# これは差分に対する1標本検定と等価です:
display(stats.ttest_1samp(data['FSIQ'] - data['PIQ'], 0))

# t検定は誤差が Gauss 分布に従うと仮定します。
# その仮定を緩めるのに Wilcoxon signed-rank test を利用することができます:
display(stats.wilcoxon(data['FSIQ'], data['PIQ']))

# 注釈
# 対応のない検定としては scipy.stats.mannwhitneyu() で Mann–Whitney U test が該当します。

# url: https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.mannwhitneyu.html#scipy.stats.mannwhitneyu
# url: https://en.wikipedia.org/wiki/Mann%E2%80%93Whitney_U_test

TtestResult(statistic=0.465637596380964, pvalue=0.6427725009414841, df=78.0)

TtestResult(statistic=1.7842019405859857, pvalue=0.08217263818364236, df=39)

TtestResult(statistic=1.7842019405859857, pvalue=0.08217263818364236, df=39)



WilcoxonResult(statistic=274.5, pvalue=0.10659492713506856)

# 線形モデル、多変数、そして分散分析

Python で “formulas” を利用して統計モデルを指定する

## 単純な線形回帰

In [8]:
# 二組みの観測値 x と y が与えられ y が x の線形な関数だという仮定を検定したいとします。いいかえると:
# y = x ∗ coef+intercept + e
# ここで e は測定値のノイズです。ここで statmodels <http://statsmodels.sourceforge.net/> モジュールを利用します:

# 1.線形モデルにフィットします。戦略として最も単純な ordinary least squares (OLS) を利用します。
# 2.coef がゼロでないことを検定します。

# まず、モデルに従うシミュレーションデータを生成します:
import numpy as np
x = np.linspace(-5, 5, 20)
np.random.seed(1)
# normal distributed noise
y = -5 + 3*x + 4 * np.random.normal(size=x.shape)
# Create a data frame containing all the relevant variables
data = pandas.DataFrame({'x': x, 'y': y})

# 次に OLS モデルを指定してフィットさせます:
from statsmodels.formula.api import ols
model = ols("y ~ x", data).fit()

# フィットした結果から様々な統計量を除くことができます:
display(model.summary())
display(model.summary2())

# 専門用語:
# statsmodel は統計用語を使います: statsmodel の y 変数は ‘endogenous’ と呼ばれます、一方で x 変数は exogenous と呼ばれます。
# 詳しくは ここ に議論があります。

# 単純化のために y (endogenous) が予測したい値であるとし、 x (exogenous) が予測のための特徴を表わす量だとします。

0,1,2,3
Dep. Variable:,y,R-squared:,0.804
Model:,OLS,Adj. R-squared:,0.794
Method:,Least Squares,F-statistic:,74.03
Date:,"Sat, 02 Dec 2023",Prob (F-statistic):,8.56e-08
Time:,09:39:54,Log-Likelihood:,-57.988
No. Observations:,20,AIC:,120.0
Df Residuals:,18,BIC:,122.0
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,-5.5335,1.036,-5.342,0.000,-7.710,-3.357
x,2.9369,0.341,8.604,0.000,2.220,3.654

0,1,2,3
Omnibus:,0.1,Durbin-Watson:,2.956
Prob(Omnibus):,0.951,Jarque-Bera (JB):,0.322
Skew:,-0.058,Prob(JB):,0.851
Kurtosis:,2.39,Cond. No.,3.03


0,1,2,3
Model:,OLS,Adj. R-squared:,0.794
Dependent Variable:,y,AIC:,119.9767
Date:,2023-12-02 09:39,BIC:,121.9682
No. Observations:,20,Log-Likelihood:,-57.988
Df Model:,1,F-statistic:,74.03
Df Residuals:,18,Prob (F-statistic):,8.56e-08
R-squared:,0.804,Scale:,21.463

0,1,2,3,4,5,6
,Coef.,Std.Err.,t,P>|t|,[0.025,0.975]
Intercept,-5.5335,1.0359,-5.3416,0.0000,-7.7099,-3.3571
x,2.9369,0.3413,8.6040,0.0000,2.2198,3.6540

0,1,2,3
Omnibus:,0.1,Durbin-Watson:,2.956
Prob(Omnibus):,0.951,Jarque-Bera (JB):,0.322
Skew:,-0.058,Prob(JB):,0.851
Kurtosis:,2.39,Condition No.:,3.0


## カテゴリ変数: グループや複数のカテゴリ間で比較

In [9]:
# 脳のサイズデータに立ち戻ってみましょう:
data = pandas.read_csv('/content/brain_size.csv', sep=';', na_values=".")

# 男性と女性の IQ を線形モデルで比較することができます:
model = ols("VIQ ~ Gender + 1", data).fit()
display(model.summary())
display(model.summary2())

0,1,2,3
Dep. Variable:,VIQ,R-squared:,0.015
Model:,OLS,Adj. R-squared:,-0.01
Method:,Least Squares,F-statistic:,0.5969
Date:,"Sat, 02 Dec 2023",Prob (F-statistic):,0.445
Time:,09:39:54,Log-Likelihood:,-182.42
No. Observations:,40,AIC:,368.8
Df Residuals:,38,BIC:,372.2
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,109.4500,5.308,20.619,0.000,98.704,120.196
Gender[T.Male],5.8000,7.507,0.773,0.445,-9.397,20.997

0,1,2,3
Omnibus:,26.188,Durbin-Watson:,1.709
Prob(Omnibus):,0.0,Jarque-Bera (JB):,3.703
Skew:,0.01,Prob(JB):,0.157
Kurtosis:,1.51,Cond. No.,2.62


0,1,2,3
Model:,OLS,Adj. R-squared:,-0.01
Dependent Variable:,VIQ,AIC:,368.8332
Date:,2023-12-02 09:39,BIC:,372.211
No. Observations:,40,Log-Likelihood:,-182.42
Df Model:,1,F-statistic:,0.5969
Df Residuals:,38,Prob (F-statistic):,0.445
R-squared:,0.015,Scale:,563.54

0,1,2,3,4,5,6
,Coef.,Std.Err.,t,P>|t|,[0.025,0.975]
Intercept,109.4500,5.3082,20.6190,0.0000,98.7041,120.1959
Gender[T.Male],5.8000,7.5070,0.7726,0.4445,-9.3970,20.9970

0,1,2,3
Omnibus:,26.188,Durbin-Watson:,1.709
Prob(Omnibus):,0.0,Jarque-Bera (JB):,3.703
Skew:,0.01,Prob(JB):,0.157
Kurtosis:,1.51,Condition No.:,3.0


## モデルを指定するための Tips

カテゴリ変数の強制：’Gender’ は自動的にカテゴリ変数と判定され、異なる値はそれぞれ異なるものとして扱われます。

整数のカラムはカテゴリ変数として扱うように強制できます:

model = ols('VIQ ~ C(Gender)', data).fit()
Intercept: formula に - 1 を使うことで intercept を除くことができます、また + 1 を使うことで intercept を使うように強制できます。

デフォルトでは statsmodel はカテゴリ変数を K のとりうる値を持ち K-1 の「ダミー」変数として(最後レベルが intercept 項に吸収されます)扱います。これはほとんどの場合デフォルトの選択としてよく動きます ー 一方で、カテゴリ変数に異なるエンコーディングを変数することもできます (http://statsmodels.sourceforge.net/devel/contrasts.html)。

## FSIQ と PIQ の違いに関する t検定との関連

異なる IQ の種類を比較するために “long-form” の表を作成して、IQ の一覧を作成します、ここで IQ の種類はカテゴリ変数としてあつかわれます:

In [10]:
data_fisq = pandas.DataFrame({'iq': data['FSIQ'], 'type': 'fsiq'})
data_piq = pandas.DataFrame({'iq': data['PIQ'], 'type': 'piq'})
data_long = pandas.concat((data_fisq, data_piq))
display(data_long)

model = ols("iq ~ type", data_long).fit()
display(model.summary())

# 前のt検定での IQ の種類の影響に関するt検定と対応する p値にと同じ値を取得できることが確認できます:

stats.ttest_ind(data['FSIQ'], data['PIQ'])

Unnamed: 0,iq,type
0,133,fsiq
1,140,fsiq
2,139,fsiq
3,133,fsiq
4,137,fsiq
...,...,...
35,128,piq
36,124,piq
37,94,piq
38,74,piq


0,1,2,3
Dep. Variable:,iq,R-squared:,0.003
Model:,OLS,Adj. R-squared:,-0.01
Method:,Least Squares,F-statistic:,0.2168
Date:,"Sat, 02 Dec 2023",Prob (F-statistic):,0.643
Time:,09:39:54,Log-Likelihood:,-364.35
No. Observations:,80,AIC:,732.7
Df Residuals:,78,BIC:,737.5
Df Model:,1,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,113.4500,3.683,30.807,0.000,106.119,120.781
type[T.piq],-2.4250,5.208,-0.466,0.643,-12.793,7.943

0,1,2,3
Omnibus:,164.598,Durbin-Watson:,1.531
Prob(Omnibus):,0.0,Jarque-Bera (JB):,8.062
Skew:,-0.11,Prob(JB):,0.0178
Kurtosis:,1.461,Cond. No.,2.62


TtestResult(statistic=0.465637596380964, pvalue=0.6427725009414841, df=78.0)

## 多変数回帰: 複数の要因を含む場合

(独立変数) z を2つの変数 x と y で説明する線形モデルを考えます。

    z=xc1+yc2+i+e

このモデルは3次元で (x, y, z) の点群を平面でフィットする問題とみなすことができます。



In [11]:
data = pandas.read_csv('/content/iris.csv')
model = ols('sepal_width ~ name + petal_length', data).fit()
display(model.summary())

0,1,2,3
Dep. Variable:,sepal_width,R-squared:,0.478
Model:,OLS,Adj. R-squared:,0.468
Method:,Least Squares,F-statistic:,44.63
Date:,"Sat, 02 Dec 2023",Prob (F-statistic):,1.58e-20
Time:,09:39:54,Log-Likelihood:,-38.185
No. Observations:,150,AIC:,84.37
Df Residuals:,146,BIC:,96.41
Df Model:,3,,
Covariance Type:,nonrobust,,

0,1,2,3,4,5,6
,coef,std err,t,P>|t|,[0.025,0.975]
Intercept,2.9813,0.099,29.989,0.000,2.785,3.178
name[T.versicolor],-1.4821,0.181,-8.190,0.000,-1.840,-1.124
name[T.virginica],-1.6635,0.256,-6.502,0.000,-2.169,-1.158
petal_length,0.2983,0.061,4.920,0.000,0.178,0.418

0,1,2,3
Omnibus:,2.868,Durbin-Watson:,1.753
Prob(Omnibus):,0.238,Jarque-Bera (JB):,2.885
Skew:,-0.082,Prob(JB):,0.236
Kurtosis:,3.659,Cond. No.,54.0


# 事後仮説検定: analysis of variance (ANOVA)

上のアヤメの例では、sepal の幅の影響を除いて petal の長さが versicolor と virginica で異なるという仮説を検定しようとしました。これは上で推定した線形モデルでの versicolor と virginica に関連づけられた係数の間の差を検定することでできます(これが分散分析, ANOVA です)。このために ‘contrast’ のベクトル を推定したパラメーターから作ります: "name[T.versicolor] - name[T.virginica]" を F-test で検定します:

In [12]:
print(model.f_test([0, 1, -1, 0]))

<F test: F=3.245335346574177, p=0.07369058781701142, df_denom=146, df_num=1>
