# 次元 Data の整理

#### Data を掴む方法
1. 平均や分散といった数値の指標によって Data を要約する。
2. 図示することで視覚的に Data を俯瞰する

In [4]:
import numpy as np
import pandas as pd

# Jupyter Notebook の出力を小数点以下３桁に抑える
%precision 3
# DataFrame の出力を小数点以下３桁に抑える
pd.options.display.precision = 3

In [5]:
# # Sample Data を Download する
# !wget -O ../data/ch2_scores_em.csv https://raw.githubusercontent.com/ghmagazine/python_stat_sample/master/data/ch2_scores_em.csv

--2022-02-14 19:15:34--  https://raw.githubusercontent.com/ghmagazine/python_stat_sample/master/data/ch2_scores_em.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 468 [text/plain]
Saving to: ‘../data/ch2_scores_em.csv’


2022-02-14 19:15:35 (49.5 MB/s) - ‘../data/ch2_scores_em.csv’ saved [468/468]



In [7]:
!head -5 ../data/ch2_scores_em.csv

生徒番号,英語,数学
1,42,65
2,69,80
3,56,63
4,41,63


In [8]:
df = pd.read_csv('../data/ch2_scores_em.csv', index_col='生徒番号')
df.head()

Unnamed: 0_level_0,英語,数学
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [11]:
scores = np.array(df['英語'])[:10]
display(scores)

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

In [12]:
scores_df = pd.DataFrame({'点数': scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name='生徒'))
scores_df

Unnamed: 0_level_0,点数
生徒,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## Data 中心の指標
代表値と呼ばれ、Data を１つの値で要約するならばこれ、といった指標。

### 平均値(mean)
Data 全てを足しあわせて、Data の数で割ることで求まる。


In [15]:
# Python
sum(scores) / len(scores)

55.000

In [17]:
# NumPy
np.mean(scores)

55.000

In [20]:
# DataFrame
print(scores_df.mean())

点数    55.0
dtype: float64


### 中央値(median)
Data を大きさの順に並べたときにちょうど中央に位置する値。
平均値に比べて外れ値に強い。
- Data 数 n が奇数なら、(n+1)/2 番目の Data が中央値
- Data 数 n が偶数なら、n/2+1 番目の Data と n/2+1 の Data の平均が中央値

In [27]:
sorted_scores = np.sort(scores)
display(sorted_scores)

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69])

In [30]:
# Python
n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 - 1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n+1)//2 - 1]
display(median)

56.500

In [31]:
# NumPy
np.median(scores)

56.500

In [34]:
# DataFrame
print(scores_df.median())

点数    56.5
dtype: float64


### 最頻値(mode)
Data の中で最も多く出現する値のこと

In [37]:
# DataFrame
print(pd.Series([1, 1, 1, 2, 2, 3]).mode())

0    1
dtype: int64


最頻値は、基本的に質的 Data の代表値を求めるときに使用する使用。
※量的 Data について、全く同じ値が何回もでていることはあまりない。ただし、度数分布表を導入することで、量的 Data についても最頻値を自然に定義できる。

In [41]:
print(pd.Series(range(1, 6)).mode())

0    1
1    2
2    3
3    4
4    5
dtype: int64


## Data のばらつきの指標

### 分散と標準偏差
#### 偏差(deviation)
各 Data が平均からどれだけ離れているかを表す指標。

In [43]:
mean = np.mean(scores)
deviation = scores - mean
display(deviation)

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [45]:
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
display(another_deviation)

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

偏差の平均は常に０になる

In [47]:
np.mean(deviation)

0.000

In [48]:
np.mean(deviation)

0.000

In [49]:
summary_df = scores_df.copy()
summary_df['偏差'] = deviation
summary_df

Unnamed: 0_level_0,点数,偏差
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [51]:
print(summary_df.mean())

点数    55.0
偏差     0.0
dtype: float64


#### 分散(variance)
偏差の平均は常に０になってしまうため、偏差の二乗を考える。
その平均として定義される指標が **分散(variance)** になる

In [52]:
np.mean(deviation ** 2)

86.000

In [53]:
# NumPy
np.var(scores)

86.000

In [55]:
# DataFrame
print(scores_df.var())

点数    95.556
dtype: float64


分散には
- 標本分散
- 不偏分散

の２種類ある。

- NumPy は Default で標本分散を計算する。
- Pandas は、Default で不偏分散を計算する。

そのため、計算結果に相違がある。
NumPy, Pandas ともに 引数 `ddof` (delta degree of freedom: デルタの自由度) を常に明示的に指定して計算することが推奨される。
- `ddof=0`: 標本分散
- `ddof=1`: 不偏分散

In [56]:
# 標本分散
np_variance = np.var(scores, ddof=0)
df_variance = scores_df.var(ddof=0)

print(np_variance, df_variance)

86.0 点数    86.0
dtype: float64


In [57]:
# 不偏分散
np_variance = np.var(scores, ddof=1)
df_variance = scores_df.var(ddof=1)

print(np_variance, df_variance)

95.55555555555556 点数    95.556
dtype: float64


In [58]:
summary_df['偏差二乗'] = np.square(deviation)
summary_df

Unnamed: 0_level_0,点数,偏差,偏差二乗
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [60]:
print(summary_df.mean())

点数      55.0
偏差       0.0
偏差二乗    86.0
dtype: float64


#### 標準偏差(standard deviation)
もとの Data と同じ単位を持ったばらつきの指標として分散の root をとった **標準偏差(standard deviation)** が使われる

In [61]:
np.sqrt(np.var(scores, ddof=0))

9.274

In [62]:
# NumPy
np.std(scores, ddof=0)

9.274

- 平均±標準偏差の区間: １シグマ区間
- 平均±２標準偏差んの区間: ２シグマ区間
- 平均±３標準偏差んの区間：３シグマ区間

と呼ぶ

### 範囲と四分位範囲

#### 範囲（range）
Data 全体を見るのではなく、Data の最大値と最小値だけでばらつきを表現する方法。
最大値と最小値の差が大きければばらつきが大きく、差が小さければばらつきも小さい、と考える。
簡単に計算できるが大雑把な指標になり、外れ値に弱い

In [64]:
np.max(scores) - np.min(scores)

28

#### 四分位範囲（inter quartile range）
Data の下位25%、50%、75%に位置する値に注目する。それらを第１四分位点、第２四分位点、第３四分位点といい Q1, Q2, Q3 で表す。
そして、 Q3 - Q1 を四分位範囲 IQR として定義する。

In [65]:
scores_Q1 = np.percentile(scores, 25)
scores_Q3 = np.percentile(scores, 75)
scores_IQR = scores_Q3 - scores_Q1
display(scores_IQR)

15.000

Q2 は中央値に一致する。
分散は平均に対して定義されるばらつきの指標。IQR は中央値に対して定義されるばらつきの指標と解釈できる。