# Pythonによる記述統計：多変量データ編

## 整然データとは分析しやすい形に整理されたデータ

1. 個々の値が1つのセルをなす
2. 個々の変数が1つの列をなす
3. 個々の観測が1つの行をなす
4. 個々の観測ユニットの類型が1つの表をなす

In [1]:
# 整然データの例
import pandas as pd
df_tidy = pd.DataFrame({
    '魚の種類': ['A', 'A', 'B', 'B'],
    '体長': [2, 3, 4, 6]
})
df_tidy

Unnamed: 0,魚の種類,体長
0,A,2
1,A,3
2,B,4
3,B,6


In [2]:
# 雑然データの例
df_not_tidy = pd.DataFrame({
    'A種の魚': [2, 3, 4],
    'B種の魚': [5, 6, 9]
})
df_not_tidy

Unnamed: 0,A種の魚,B種の魚
0,2,5
1,3,6
2,4,9


In [4]:
# クロス集計表
# 雑然データではあるが、人間の目にはわかりやすい
# コンピュータには扱いづらい
# データの管理は整然データで行い、必要に応じて適宜クロス集計表に変換すればよい
import numpy as np
data = np.array([13, 9, 10, 15]).reshape((2, 2))
df_cross = pd.DataFrame(data, index=['大阪店', '東京店'], columns=['青', '赤'])
df_cross

Unnamed: 0,青,赤
大阪店,13,9
東京店,10,15


In [5]:
# 多変量データの管理
import scipy as sp
fish_data = pd.read_csv('./samples/3-2-1-fish_multi.csv')
fish_data

Unnamed: 0,species,length
0,A,2
1,A,3
2,A,4
3,B,6
4,B,8
5,B,10


In [6]:
# グルーピングして統計量を出す
fish_data.groupby('species').mean()

Unnamed: 0_level_0,length
species,Unnamed: 1_level_1
A,3
B,8


In [8]:
fish_data.groupby('species').describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


In [10]:
# 整然データから適宜クロス集計表を作る
shoes_data = pd.read_csv('./samples/3-2-2-shoes.csv')
shoes_data

Unnamed: 0,store,color,sales
0,tokyo,blue,10
1,tokyo,red,15
2,osaka,blue,13
3,osaka,red,9


In [11]:
cross = pd.pivot_table(
    data=shoes_data,
    values='sales',
    aggfunc='mean',
    index='store',
    columns='color'
)
cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,13,9
tokyo,10,15


In [14]:
# 共分散を算出する
# 共分散が0より大：正の相関
# 共分散が0付近：相関なし
# 共分散が0より小：負の相関
# 共分散を各変数の標準偏差で割った量が相関係数
#（https://sci-pursuit.com/math/statistics/correlation-coefficient.html）
cov_data = pd.read_csv('./samples/3-2-3-cov.csv')
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [15]:
# 分散共分散行列
# 多変数を取り扱うとき、各変数の分散と、各変数間の共分散を行列形式に記述して、一覧できるようにしたもの
# 行列といってるけど、ただの表ぐらいの意味しかなさそう。イメージ的には混同行列的な感じ。
sp.cov(cov_data.x, cov_data.y, ddof=0)

  after removing the cwd from sys.path.


array([[ 3.2816,  6.906 ],
       [ 6.906 , 25.21  ]])

In [16]:
sp.cov(cov_data.x, cov_data.y, ddof=1)

  """Entry point for launching an IPython kernel.


array([[ 3.64622222,  7.67333333],
       [ 7.67333333, 28.01111111]])

In [17]:
# 共分散を標準化した相関係数の行列も同じように瞬時に出せる
# 補足：相関係数というと一般的には、ピアソンの積率相関係数を指す
sp.corrcoef(cov_data.x, cov_data.y)

  This is separate from the ipykernel package so we can avoid doing imports until


array([[1.       , 0.7592719],
       [0.7592719, 1.       ]])