In [1]:
import scipy as sp
import pandas as pd

In [2]:
# 標本として以下のような多変量（魚の種類と体長）データを考える
fish_multi = pd.DataFrame(
    {'species': ['A', 'A', 'A', 'B', 'B', 'B'],
     'length': [2, 3, 4, 6, 8, 10]}
)
fish_multi

Unnamed: 0,length,species
0,2,A
1,3,A
2,4,A
3,6,B
4,8,B
5,10,B


In [3]:
# 魚の種類ごとに統計量を求める
group = fish_multi.groupby(fish_multi['species'])

# 平均値
print('mean:')
print(group.mean())

# 標準偏差
print('\nsigma:')
print(group.std(ddof=1))

# 一覧
group.describe()

mean:
         length
species        
A             3
B             8

sigma:
         length
species        
A           1.0
B           2.0


Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


In [4]:
# データを変えて共分散について考える
cov_data = pd.DataFrame(
    {'x': [18.5, 18.7, 19.1, 19.7, 21.5, 21.7, 21.8, 22.0, 23.4, 23.8],
     'y': [34, 39, 41, 38, 45, 41, 52, 44, 44, 49]}
)
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [5]:
# 共分散の計算
x = cov_data['x']
y = cov_data['y']
N = len(cov_data)

mu_x = sp.mean(x)
mu_y = sp.mean(y)

cov_sample = sum((x - mu_x) * (y - mu_y)) / N
cov_sample

# sp.cov(x, y, ddof=0) で分散共分散行列を簡単に計算できる

6.9060000000000015

In [6]:
# 標本の場合は分母を N-1 で計算する
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
cov

# sp.cov(x, y, ddof=1) で分散共分散行列を簡単に計算できる

7.6733333333333356

----
##### （参考）分散共分散行列

変数 $ x $, $ y $ の分散共分散行列は以下の通り

|　| $ x $ | $ y $ |
|---|---|---|
| $ x $ | $ {\sigma}_x^2 $ | $ Cov(x, y) $ |
| $ y $ | $ Cov(x, y) $ | $ {\sigma}_y^2 $ |

----

※ピアソンの積率相関係数は、上記の共分散 $ Cov(x, y) $ の値を標準化した値

|　| $ x $ | $ y $ |
|---|---|---|
| $ x $ | *1* | $ {\rho}_{xy} $ |
| $ y $ | $ {\rho}_{xy} $ | *1* |

----


In [7]:
# ピアソンの積率相関係数を計算する

# 各変数の不偏分散
sigma_2_x = sp.var(x, ddof=1)
sigma_2_y = sp.var(y, ddof=1)

rho = cov / sp.sqrt(sigma_2_x * sigma_2_y)
rho

# sp.corrcoef(x, y) で簡単に計算できる

0.75927190411370882