<a href="https://colab.research.google.com/github/ganochan/statistical_analysis_with_python_Lern/blob/main/ch2_scores_em.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 一次元データの整理
データの特徴をつかむ方法
+ 数値の指標によってデータを要約する：平均や分散
+ 視覚的にデータを俯瞰する：図示

In [1]:
#セッションの準備
import numpy as np
import pandas as pd

#Jupyter Notebookの出力を小数点以下3桁に抑える
%precision 3

#Dataframeの出力を小数点以下3桁に抑える
pd.set_option('precision', 3)

In [2]:
#サンプルデータのインポート
df = pd.read_csv('drive/MyDrive/python_stat_sample-data/ch2_scores_em.csv', index_col='生徒番号')

#dfの最初の5行を表示
df.head()

Unnamed: 0_level_0,英語,数学
生徒番号,Unnamed: 1_level_1,Unnamed: 2_level_1
1,42,65
2,69,80
3,56,63
4,41,63
5,57,76


# NumpyとPandasでデータを使えるようにする

生徒番号順で10人の英語の点数を使う。このデータをNumpyで計算するために、arrayというデータ構造にしてscoresという名前で保存する。

- array は数値計算に強い高機能な多次元配列

In [8]:
scores = np.array(df['英語'])[:10]
scores

array([42, 69, 56, 41, 57, 48, 65, 49, 65, 58])

Numpyと同じように、PandasのDataFrameを作る。DataFrameには10人の生徒それぞれに、Aさん、Bさん・・・と名前をつけておく。

In [9]:
scores_df = pd.DataFrame({'点数':scores},index = pd.Index(['A','B','C','D','E','F','G','H','I','J'],name = '生徒'))
scores_df

Unnamed: 0_level_0,点数
生徒,Unnamed: 1_level_1
A,42
B,69
C,56
D,41
E,57
F,48
G,65
H,49
I,65
J,58


## データの中心の指標
データの中心を表す指標（データを一つの値で要約するならばこれ）＝代表値
# 平均値
平均値（mean）

In [None]:
#定義に基づき、Pythonで実直に書く
sum(scores) / len(scores)

55.000

In [None]:
#NumPyの関数（mean）を使う
np.mean(scores)

55.000

In [None]:
#Dataframeのmeanメソッドを使って平均を求める
scores_df.mean()

点数    55.0
dtype: float64

# 中央値
中央値（median）：データの大きさの順に並べたときにちょうど中央に位置する値

中央値は平均値に比べて外れ値に強い。

データの数が偶数の場合は中央値はそれら二つの値の平均値と定義される。

中央値の定義


*   データ数nが奇数なら、（n+1)/2番目のデータが中央値
*   データ数nが偶数なら、n/2番目のデータとn/2+1番目のデータの平均が中央値



In [None]:
#scores内の点数を大きさの順番に並べる
sorted_scores = np.sort(scores)
sorted_scores

array([41, 42, 48, 49, 56, 57, 58, 65, 65, 69])

In [None]:
#中央値の定義をPythonのコードに落とす。リストのインデックスは0はじまりであるため、定義とは１ずれることに注意
n = len(sorted_scores)
if n % 2 == 0: #偶奇を判定（偶数ならifの中へ）
    m0 = sorted_scores[n//2 - 1] #中央値の前の値
    m1 = sorted_scores[n//2] #中央値の後の値
    median = (m0 + m1) / 2
else:
    median = sorted_scores[(n + 1)// - 1]
median

56.500

In [None]:
#Numpyのmedian関数を使って中央値を計算(sortが含まれる)
np.median(scores)

56.500

In [None]:
#DataframeやSeriesの場合、medianメソッドが利用可能
scores_df.median()

点数    56.5
dtype: float64

# 最頻値
最頻値（mode）:データ内で最も多く出現する値

DataFrameやSeriesのmodeメソッドを利用する

最頻値は質的データの代表値を求めるときに使う指標。テストの点数のような量的データについて最頻値を求めようとしても、まったく同じ点数が出ている頻度が少なく、一意に定まらないことが多い。

In [None]:
#PandasのSeriesの中に含まれる6個の要素のmodeをとる。
pd.Series([1,1,1,2,2,3,]).mode()

0    1
dtype: int64

In [None]:
#最頻値が一意に定まらない例（要素が全部表示されてしまう）
pd.Series([1,2,3,4,5]).mode()

0    1
1    2
2    3
3    4
4    5
dtype: int64

## データのばらつきの指標
平均値や中央値によって、データを代表する値は得られる。しかしクラス全員が50点のテストとクラスの半分が0点、残りが100点のテストでも平均点と中央値は50点となる。データのばらつきを数値で表現する方法を理解する

# 分散と標準偏差
偏差（deviation）：各データが平均からどれだけ離れているか

In [None]:
#NumPyのブロードキャストという機能を用いて、各生徒の偏差を求める
mean = np.mean(scores) # scoresの平均値を求める
deviation = scores - mean # scores内の値がそれぞれ平均とどれだけ離れているかを求める
deviation

array([-13.,  14.,   1., -14.,   2.,  -7.,  10.,  -6.,  10.,   3.])

In [None]:
#10人が受けた別のテストの偏差も求める
another_scores = [50, 60, 58, 54, 51, 56, 57, 53, 52, 59]
another_mean = np.mean(another_scores)
another_deviation = another_scores - another_mean
another_deviation

array([-5.,  5.,  3., -1., -4.,  1.,  2., -2., -3.,  4.])

scoreとanother_scoreではscoreのほうが、点数のばらつきが大きいように見える。

偏差を代表値として一つの値にまとめることはできない。（偏差の平均は常に０になる）

In [None]:
#deviation（scoresの偏差）の平均を表示する
np.mean(deviation)

0.000

In [None]:
#another_deviation(another_scoresの偏差）の平均を表示する
np.mean(another_deviation)

In [None]:
#DataFrameを使ってまとめると
summary_df = scores_df.copy()
summary_df['偏差'] = deviation
summary_df

Unnamed: 0_level_0,点数,偏差
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1
A,42,-13.0
B,69,14.0
C,56,1.0
D,41,-14.0
E,57,2.0
F,48,-7.0
G,65,10.0
H,49,-6.0
I,65,10.0
J,58,3.0


In [None]:
summary_df.mean()

点数    55.0
偏差     0.0
dtype: float64

分散（variance）：偏差の二乗の平均

In [None]:
#分散の定義をPythonで落とす
np.mean(deviation ** 2) #deviation（偏差）の二乗（** 2）の平均（.mean）を求める

86.000

In [None]:
#NumPyで分散を求める
np.var(scores)

86.000

DataFrameやSeriesにもvarメソッドが存在するが、NumPyで求めたものとは異なる。
Pandasで計算される分散は違う値となってしまうことに注意。



*   標本分散：Numpyのデフォルト（本書の分散ではこちらを利用）
*   不偏分散：Pandasのデフォルト（推測統計において重要な役割を持つ指標）



In [None]:
scores_df.var()

点数    95.556
dtype: float64

In [None]:
#summry_dfに偏差二乗の列を追加しておく
summary_df[('偏差二乗')] = np.square(deviation)
summary_df

Unnamed: 0_level_0,点数,偏差,偏差二乗
生徒,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,42,-13.0,169.0
B,69,14.0,196.0
C,56,1.0,1.0
D,41,-14.0,196.0
E,57,2.0,4.0
F,48,-7.0,49.0
G,65,10.0,100.0
H,49,-6.0,36.0
I,65,10.0,100.0
J,58,3.0,9.0


In [None]:
summary_df.mean()
#偏差二乗の列の平均をとると分散の値になる

点数      55.0
偏差       0.0
偏差二乗    86.0
dtype: float64

標準偏差：分散のルートをとった値

In [None]:
#分散のルートをとる
np.sqrt(np.var(scores, ddof=0))

9.274

# 範囲と四分位範囲
範囲（range）:データの最大値と最小値だけでばらつきを表現する

最大値と最小値の差が大きければ、ばらつきが大きく、小さければばらつきも小さいという考え方。大雑把な指標で外れ値に弱い。

In [5]:
#数式とPythonを使った実装
np.max(scores) - np.min(scores)

28

四分位範囲（interquartile range）：データの下位25%（Q1:第1四分位）、50%（Q2:第2四分位）,75%（Q3:第3四分位）に位置する値に注目する。そして四分位範囲（IQR=Q3-Q1）として定義する。

In [11]:
# scoresのIQRを求める。データの25%点などはNumPyのpercentileという関数で求める
scores_Q1 = np.percentile(scores, 25)
scores_Q3 = np.percentile(scores, 75)
scores_IQR = scores_Q3 - scores_Q1
scores_IQR

15.000

IQRを求める際に使わなかったQ2は中央値に一致する。IQRは中央値に対して定義されるばらつきの指標と解釈する。

Q1,Q2,Q3,IQRは箱ひげ図という図示方法でも使う。

In [12]:
#describe関数を使って、DatafremeやSeriesの様々なデータ指標を一度に求める
pd.Series(scores).describe()

count    10.000
mean     55.000
std       9.775
min      41.000
25%      48.250
50%      56.500
75%      63.250
max      69.000
dtype: float64