# 第2章 1つの変数の記述統計

In [4]:
%reload_ext autoreload
%autoreload 2
%matplotlib inline

import sys
import os
import math
import datetime as dt

import numpy as np
import scipy
import statsmodels.api as sm
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
#from bokeh.io import output_notebook, show
#from bokeh.plotting import figure

sns.set(font_scale=1.5)
#plt.rcParams['font.family'] = 'IPAexGothic'

### 指導法データの要約
http://www.cc.aoyama.ac.jp/~t41338/lecture/aoyama/stat2e/stat2e_top.html のサンプルデータを使う

In [7]:
!mkdir -p cache
!curl http://terao.akiba.coocan.jp/lecture/aoyama/stat2e/shidouhou.csv -o cache/shidouhou.csv

  % Total    % Received % Xferd  Average Speed   Time    Time     Time  Current
                                 Dload  Upload   Total   Spent    Left  Speed
100   682  100   682    0     0   4417      0 --:--:-- --:--:-- --:--:--  4516


In [104]:
path = os.path.join('cache', 'shidouhou.csv')
df = pd.read_csv(path, encoding='cp932')
df.head(5)

Unnamed: 0,SID,name,sex,math,stat,psych_test,stat_test1,stat_test2,method
0,1,大村,男,嫌い,好き,13,6,10,C
1,2,本多,男,嫌い,好き,14,10,13,B
2,3,川崎,男,好き,好き,7,6,8,B
3,4,多村,男,好き,好き,12,10,15,A
4,5,松中,男,嫌い,嫌い,10,5,8,B


In [105]:
df.shape

(20, 9)

In [107]:
# 指導法を集計する
df['method'].value_counts()

A    5
C    5
D    5
B    5
Name: method, dtype: int64

### テストAの要約

In [109]:
test_a = pd.DataFrame(data=[10,13,8,15,8], columns=['score'])

In [111]:
test_a['score'].value_counts()

8     2
15    1
13    1
10    1
Name: score, dtype: int64

In [128]:
scores = test_a['score']
length = len(scores)
print('平均:', scores.mean())
print('中央値:', scores.median())
print('標準分散:', scores.var(ddof=0)) # ddofは "Delta Degrees of Freedom" (自由度)の略
print('不偏分散:', scores.var(ddof=1)) # 不偏分散は自由度を1として求める
print('標準偏差:', scores.std(ddof=1))
print('標準分散の平方根による標準偏差', np.sqrt(scores.var(ddof=0)))

平均: 10.8
中央値: 10.0
標準分散: 7.760000000000001
不偏分散: 9.700000000000001
標準偏差: 3.1144823004794877
標準分散の平方根による標準偏差 2.78567765544


- データの背後に母集団があり，母集団の値を推測する場合は **不偏分散** を使う
- 手元にすべてのデータがあり，そのデータを記述する場合は **標準分散** を使う

### 心理学テストの要約

In [121]:
score_list = [13, 14, 7, 12, 10, 6, 8, 15, 4, 14, 9, 6, 10, 12, 5, 12, 8, 8, 12, 15]
df = pd.DataFrame(data=score_list, columns=['score'])

In [123]:
# Zスコアの算出
length = len(df['score']) # データ数
std = np.sqrt(df['score'].var(ddof=0))
df['z_score'] = (df['score'] - df['score'].mean()) / std
df['z_score'].values

array([ 0.90045034,  1.20060045, -0.90045034,  0.60030023,  0.        ,
       -1.20060045, -0.60030023,  1.50075056, -1.80090068,  1.20060045,
       -0.30015011, -1.20060045,  0.        ,  0.60030023, -1.50075056,
        0.60030023, -0.60030023, -0.60030023,  0.60030023,  1.50075056])

In [124]:
# Zスコアの平均と標準偏差を調べる => 0, 1になっていること
print('平均:', df['z_score'].mean())
print('標準偏差:', np.sqrt(df['z_score'].var(ddof=0)))

平均: 2.2204460492503132e-17
標準偏差: 1.0


In [125]:
# 偏差値の算出
df['deviation_score'] = 50 + df['z_score'] * 10

In [126]:
# 偏差値の平均と標準偏差を調べる => 50, 10 になっていること
print('平均:', df['deviation_score'].mean())
print('標準偏差:', np.sqrt(df['deviation_score'].var(ddof=0)))

平均: 50.0
標準偏差: 10.0
