# Chapter 02: 1 次元データの整理  first

In [1]:
import numpy as np
import pandas as pd

%precision 3

pd.set_option('precision', 3)

In [2]:
df = pd.read_csv('../data/ch2_scores_em.csv', index_col='生徒番号')
df.head()

Unnamed: 0_level_0,英語,数学
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [3]:
scores = np.array(df['英語'])[:10]  # スライスで 10 行分取り出す
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

In [4]:
# DataFrame を作る

scores_df = pd.DataFrame({'点数':scores},
                         index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'],
                                        name='生徒'))

scores_df

Unnamed: 0_level_0,点数
生徒,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## 2.1　|　データの中心の指標

__代表値__ とも呼ばれる

### 2.1.1　平均値

(データの合計) / (データ数)

In [5]:
sum(scores) / len(scores)

55.0

In [6]:
np.mean(scores)

55.0

In [7]:
scores_df.mean()

点数    55.0
dtype: float64

$\bar{x} ~ を平均とすると \\
\bar{x} = \frac{1}{n} \sum_{i = 1}^{n} x_{i} = \frac{1}{n} (x_{1} + x_{2} + \cdots + x_{n})$

### 2.1.2　中央値

データを大きさ順に並べたときにちょうど真ん中にある値
- データ数 n が奇数なら,  
(n + 1) / 2 番目のデータが中央値

- データ数 n が偶数なら,  
n / 2 番目のデータと (n / 2) + 1 番目のデータの平均が中央値

In [8]:
# まずソートする
sorted_scores = np.sort(scores)

n = len(sorted_scores)
if n%2 == 0:
    n0 = sorted_scores[n//2 - 1]
    n1 = sorted_scores[n//2]
    median = (n0 + n1) / 2
    
else:
    median = sorted_scores[(n + 1)//2 - 1]
    
print(median)

56.5


In [9]:
np.median(scores)

56.5

In [10]:
scores_df.median()

点数    56.5
dtype: float64

### 2.1.3　最頻値

データの中で最も多く出現する値のこと

In [11]:
pd.Series([1, 1, 1, 2, 2, 3]).mode()

0    1
dtype: int64

In [12]:
pd.Series([1, 2, 3, 4, 5]).mode()

0    1
1    2
2    3
3    4
4    5
dtype: int64

上のように一意に定まらない場合は全てが最頻値になってしまうので注意

## 2.2　|　データのばらつきの指標

### 2.2.1　分散と標準偏差

__偏差__ とは各データが平均からどれだけ離れているかを表す指標のこと

In [15]:
mean = np.mean(scores)
deviation = scores - mean
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [16]:
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

In [17]:
# 偏差の平均値を求める
print(np.mean(deviation))
print(np.mean(another_deviation))

0.0
0.0


$\bar{x} を平均とすると\\
偏差の平均は\\
\begin{eqnarray}
\frac{1}{n} \sum_{i = 1}^{n} (x_{i} - \bar{x})
&=& \frac{1}{n} \sum_{i = 1}^{n} x_{i} - \frac{1}{n} \sum_{i = 1}^{n} \bar{x} \\
&=& \bar{x} - \bar{x} \\
&=& 0
\end{eqnarray}$