## 記述統計 ##
### １変量データ ###

#### 統計処理パッケージ ####
パッケージscipyは、データ分析のための基本的な関数を収容しているので、Pythonによる記述統計では、scipyをインポートする。もちろん、データを格納するための関数を収容しているnumpyもインポートする。

#### １変量データ ####
1変量データとは、種類が１種類しかないデータのことである。たとえば、数理統計学１科目だけの成績データは、１変量データ(univariate data)である。これに対して、数理統計学の他に、業務自動化演習、AIプログラミングII、ICTマネジメントIなどの成績を加えたデータは多変量データ(multivariate data)と呼ばれる。

ここでは、１変量データとして、架空の数理統計学の成績データ(exam_score)を用いることにする。

In [54]:
import numpy as np
import scipy as sp

In [55]:
#データ処理をする上で、必要以上に高い精度は意味がなく、また、小数点以下の桁数が揃っている方が画面出力した場合にも見栄えがよい。そのため、小数点以下の精度を設定しておく。
%precision 3

'%.3f'

In [56]:
exam_score = np.array([90, 75, 53, 88, 47, 95, 65, 77, 49, 82])
exam_score

array([90, 75, 53, 88, 47, 95, 65, 77, 49, 82])

#### 平均値 ####
最初に、平均値（期待値と呼ぶこともある）を計算しよう。


$$ \mu = \frac{1}{N} \sum_{i=1}^{N} x_i $$


平均値muを計算するためには、合計sum_scoreとサンプルの個数（サンプルサイズ）Nとを用いる。

mu = sum_score / N


In [57]:
N = len(exam_score)
sum_score = sp.sum(exam_score)
mu = sum_score / N
mu

72.1

ただし、平均値は、scipyのmean関数を使って求めることができる。

In [58]:
sp.mean(exam_score)

72.1

#### 標本分散(sample variance) ####
分散は、データが平均値からどれだけ離れているかを表す指標である。標本分散の計算式は、以下の通りである。


$$ \sigma^2 = \frac{1}{N} \sum_{i=1}^{N}(x_i - \mu)^2 $$




In [59]:
sigma_2_sample = sp.sum((exam_score - mu) ** 2)/N
sigma_2_sample

280.69

#### 不偏分散(unbiased variance) ####
不偏分散は、標本分散が母集団の分散（すなわち、母分散）と比べて分散を過小評価することを修正するために導入された分散の概念である。

標本分散を計算する際に用いる平均値は、標本から推定された推定量である。この推定量は、母集団の平均値から少しずれていると考えられる。標本分散は、この少しずれた平均値$\mu$を$(x_i-\mu)^2$使って計算しているので、母集団の平均値（母平均）を使って計算される母集団の分散を完全に正確には推定できない（具体的には、母集団の分散より小さくなる）。そこで、次の式で計算される不偏分散が導入された。

$$ \sigma^2 = \frac{1}{N-1}\sum_{i=1}^N (x_i - \mu)^2 $$




標本分散が偏りをもつのはなぜだろうか？

簡単な例で考えてみよう。

平均0．分散1である分布に従う母集団から3つの標本を取り出したところ、-1、0、1が得られた。

このとき、母分散（元の分布の分散）は、1であり、-1, 0, 1の分散である標本分散は、2/3であるので、標本分散を3/2倍、すなわち、N/（N-1）倍すると、母分散に一致する（実際に計算をして確かめよう）。

先ほど標本分散を計算した例で、不偏分散を計算すると、次の通りである。

In [60]:
sigma_2_unbiased = sp.sum((exam_score - mu)** 2) / (N-1)
sigma_2_unbiased

311.8777777777778

なお、scipyの分散を求める関数varは、ddof = 1と指定することによって、不偏分散を求めることができる。



In [61]:
sp.var(exam_score, ddof = 1)

311.8777777777778

#### 標準偏差 ####

標準偏差は、分散の平方根である。分散は、元のデータが2乗された次元(dimension)をもっているので、そのままでは、データを扱い難い。そこで、分散の平方根である標準偏差が使われる。標準偏差の計算式は以下の通りである。

$$ \sigma = \sqrt{\sigma^2} = \sqrt{\frac{1}{N-1}\sum_{i=1}^N (x_i - \mu)^2}  $$

In [68]:
sigma = sp.sqrt(sigma_2_sample)
'{:.3f}'.format(sigma)

'16.754'

scipyには標準偏差を求める関数stdも用意されている。不偏分散の平方根を求める場合には、ddof=1を指定する。

In [69]:
'{:.3f}'.format(sp.std(exam_score, ddof = 1))

'17.660'

#### 標準化 ####

様々なデータを比べるとき、平均や分散（標準偏差）が特定の値になるように変換してから比較すると、それぞれのデータの特徴が明瞭になることがある。たとえば、平均値が大きな変数と平均が小さな変数とがある場合、全体の特徴を把握し難い。そのため、統計学では、標準化という手法が用いられる。具体的には、標準化は、データの平均を0に、標準偏差を1にするような変換のことである。こ

データの平均値を0にするには、すべてのデータから平均値を差し引けばよい。標準偏差を1にするためには、すべてのデータを標準偏差で割り算すればよい。

それでは、exam_scoreを標準化してみよう。


In [74]:
std_exam_score = (exam_score - mu) / sigma
std_exam_score

array([ 1.068,  0.173, -1.14 ,  0.949, -1.498,  1.367, -0.424,  0.292,
       -1.379,  0.591])

標準化されたstd_exam_scoreの平均値と標準偏差を調べてみよう。

練習のため、以下の2通りの方法で計算しなさい。
+ 平均値と標準偏差の数式を使って計算
+ scipyライブラリ内の関数を使って計算

In [75]:
std_mu = sp.sum(std_exam_score) / len(std_exam_score)
std_mu

3.3306690738754696e-16

In [84]:
std_var = sp.sum((std_exam_score - std_mu) ** 2)/len(std_exam_score)
std_var

1.0

In [70]:
sp.mean(std_sigma_exam)

3.3306690738754696e-16

In [71]:
sp.var(std_sigma_exam)

1.0

#### その他の統計量 ####

scipyライブラリには、以下の統計量を求める関数が用意されている。

##### 最大値 amax関数 #####
データ列の中の最大値を求める。

##### 最小値 amin関数 #####
データ列の中の最小値を求める。

##### 中央値 median関数 #####
データを昇順(ascending order)で並べたときに、ちょうど真ん中に来るデータを求める。



In [86]:
sp.amax(exam_score)

95

In [87]:
sp.amin(exam_score)

47

In [88]:
sp.median(exam_score)

76.0

#### 統計分析のための関数 ####

scipyには、統計分析のための関数も用意されている。以下のコマンドを実行することにより、それらの関数を利用できるようになる。

In [89]:
from scipy import stats

#### 四分位点 ####

四分位点(quartile)とは、データを小さい方から大きさの順に並べたとき、データを4分の１ずつに分ける3つの点に対応するデータ値のことである。小さい方から順に、第１四分位点、中央値、第３四分位点と呼ぶ。

exam_scoreの四分位点を求めよう。

In [91]:
exam_score

array([90, 75, 53, 88, 47, 95, 65, 77, 49, 82])

In [90]:
stats.scoreatpercentile(exam_score, 25)

56.0

In [92]:
stats.scoreatpercentile(exam_score, 50)

76.0

In [93]:
stats.scoreatpercentile(exam_score, 75)

86.5

exam_scoreを小さい方から順に並べると、[47, 49, 53, 65, 75, 77, 82, 88, 90, 95]となる。

四分位数の求め方には、複数の方法があるが、高等学校の教科書に記載された求め方は、

1. データを小さい順に並べる
1. 中央値を求める（第2四分位数）
1. 中央値より小さい「前半データ」と中央値より大きい「後半データ」に分ける
1. 前半データ内での中央値が第1四分位数、後半データ内での中央値が第3四分位数
1. 第3四分位数から第1四分位数を引いた値を四分位範囲という
1. 四分位範囲の 1/2 倍を四分位偏差という

というものである。

stats.scoreatpercentileで用いられている第１四分位点の求め方は、

1. 「データの個数から 1 を引いた値」に25%、50%、75%をかける
1. 答えが整数 k なら k+1 番目の数が四分位数
1. 答えが k+0.25 なら k+1 番目の 0.75 倍と k+2 番目の 0.25 倍の合計が四分位数
1. 答えが k+0.5 なら k+1 番目の 0.5 倍と k+2 番目の 0.5 倍の合計が四分位数
1. 答えが k+0.75 なら k+1 番目の 0.25 倍と k+2 番目の 0.75 倍の合計が四分位数

である。

stats.scoreatpercentileで用いられている中央値の求め方や第３四分位点の求め方は。自分で調べて確かめよう。

