# 次元 Data の整理

#### Data を掴む方法
1. 平均や分散といった数値の指標によって Data を要約する。
2. 図示することで視覚的に Data を俯瞰する

In [4]:
import numpy as np
import pandas as pd

# Jupyter Notebook の出力を小数点以下３桁に抑える
%precision 3
# DataFrame の出力を小数点以下３桁に抑える
pd.options.display.precision = 3

In [5]:
# # Sample Data を Download する
# !wget -O ../data/ch2_scores_em.csv https://raw.githubusercontent.com/ghmagazine/python_stat_sample/master/data/ch2_scores_em.csv

--2022-02-14 19:15:34--  https://raw.githubusercontent.com/ghmagazine/python_stat_sample/master/data/ch2_scores_em.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.111.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 468 [text/plain]
Saving to: ‘../data/ch2_scores_em.csv’


2022-02-14 19:15:35 (49.5 MB/s) - ‘../data/ch2_scores_em.csv’ saved [468/468]



In [7]:
!head -5 ../data/ch2_scores_em.csv

生徒番号,英語,数学
1,42,65
2,69,80
3,56,63
4,41,63


In [8]:
df = pd.read_csv('../data/ch2_scores_em.csv', index_col='生徒番号')
df.head()

Unnamed: 0_level_0,英語,数学
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


In [11]:
scores = np.array(df['英語'])[:10]
display(scores)

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

In [12]:
scores_df = pd.DataFrame({'点数': scores}, index=pd.Index(['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J'], name='生徒'))
scores_df

Unnamed: 0_level_0,点数
生徒,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## Data 中心の指標
代表値と呼ばれ、Data を１つの値で要約するならばこれ、といった指標。

### 平均値(mean)
Data 全てを足しあわせて、Data の数で割ることで求まる。


In [15]:
# Python
sum(scores) / len(scores)

55.000

In [17]:
# NumPy
np.mean(scores)

55.000

In [20]:
# DataFrame
print(scores_df.mean())

点数    55.0
dtype: float64


### 中央値(median)
Data を大きさの順に並べたときにちょうど中央に位置する値。
平均値に比べて外れ値に強い。
- Data 数 n が奇数なら、(n+1)/2 番目の Data が中央値
- Data 数 n が偶数なら、n/2+1 番目の Data と n/2+1 の Data の平均が中央値

In [27]:
sorted_scores = np.sort(scores)
display(sorted_scores)

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69])

In [30]:
# Python
n = len(sorted_scores)
if n % 2 == 0:
    m0 = sorted_scores[n//2 - 1]
    m1 = sorted_scores[n//2]
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n+1)//2 - 1]
display(median)

56.500

In [31]:
# NumPy
np.median(scores)

56.500

In [34]:
# DataFrame
print(scores_df.median())

点数    56.5
dtype: float64


### 最頻値(mode)
Data の中で最も多く出現する値のこと

In [37]:
# DataFrame
print(pd.Series([1, 1, 1, 2, 2, 3]).mode())

0    1
dtype: int64


最頻値は、基本的に質的 Data の代表値を求めるときに使用する使用。
※量的 Data について、全く同じ値が何回もでていることはあまりない。ただし、度数分布表を導入することで、量的 Data についても最頻値を自然に定義できる。

In [41]:
print(pd.Series(range(1, 6)).mode())

0    1
1    2
2    3
3    4
4    5
dtype: int64
