# Chapter 02: 1 次元データの整理  second

In [15]:
import numpy as np
import pandas as pd

%precision 3

pd.set_option('precision', 3)

In [16]:
# 前回までのこと

df = pd.read_csv('../data/ch2_scores_em.csv', index_col='生徒番号')
scores = np.array(df['英語'])[:10]  # スライスで 10 行分取り出す

# DataFrame を作る

scores_df = pd.DataFrame({'点数':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                                        name='生徒'))

mean = np.mean(scores)
deviation = scores - mean

In [17]:
# DataFrame を作ってまとめる

summary_df = scores_df.copy()
summary_df['偏差'] = deviation
summary_df

Unnamed: 0_level_0,点数,偏差
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [18]:
summary_df.mean()

点数    55.0
偏差     0.0
dtype: float64

__分散__ とは偏差の二乗の平均のとして定義される指標のこと. 偏差では +, -, で表されるがそれぞれ二乗することで, +, -, 関係なくどれだけ離れているかを考えている.

In [19]:
# 偏差を二乗して平均を計算する
np.mean(deviation ** 2)

86.0

In [20]:
np.var(scores)

86.0

In [21]:
# 標本分散
print(scores_df.var(ddof=0), '\n')

# 不偏分散
print(scores_df.var(ddof=1))

点数    86.0
dtype: float64 

点数    95.556
dtype: float64


上のように DataFrame や Series で Pandas の var メソッドを使うときは注意が必要.

In [22]:
# summary_df に偏差の二乗の列を追加する

summary_df['偏差二乗'] = np.square(deviation)
summary_df

Unnamed: 0_level_0,点数,偏差,偏差二乗
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [23]:
summary_df.mean()

点数      55.0
偏差       0.0
偏差二乗    86.0
dtype: float64

$分散を S^2 とすると\\
S^2 = \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^2 \\  ~~~ = ~~~
\frac{1}{n} \{ (x_{1} - \bar{x})^2 + (x_{2} - \bar{x})^2 + \cdots + (x_{n} - \bar{x})^2 \}$

分散は __一辺の長さが「偏差」の正方形の面積の平均__ と考えることができる.

__標準偏差__ とは分散のルートをとった指標のこと  
こうすることで元のデータと同じ単位で扱うことができる.

$標準偏差を S とすると\\
S = \sqrt{S^2} = \sqrt{ \frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})^2 }$

In [24]:
# 分散を求めてルートをとる
np.sqrt(np.var(scores, ddof=0))

9.273618495495704

平均を μ, 標準偏差を σ とすると  
__1 シグマ区間__ とは, μ - σ から μ + σ までの区間  
__2 シグマ区間__ とは, μ - 2σ から μ + 2σ までの区間  
__3 シグマ区間__ とは, μ - 3σ から μ + 3σ までの区間  
のこと.

In [30]:
# それぞれの区間を求めてみる

myu = np.mean(scores)
sig = np.sqrt(np.var(scores, ddof=0))

sig_1 = (myu + sig) - (myu - sig)
sig_2 = (myu + 2 * sig) - (myu - 2 * sig)
sig_3 = (myu + 3 * sig) - (myu - 2 * sig)

print(sig_1)
print(sig_2)
print(sig_3)

18.5472369909914
37.094473981982816
46.36809247747853
