# 第3部　記述統計

## 5章　多変量データの統計量

### 実装：分析の準備

In [1]:
# 数値計算に使うライブラリ
import numpy as np
import pandas as pd

### 実装：分析対象となるデータの用意

In [2]:
# データの読み込み
cov_data = pd.read_csv('3-5-1-cov.csv')
print(cov_data)

      x   y
0  18.5  34
1  18.7  39
2  19.1  41
3  19.7  38
4  21.5  45
5  21.7  41
6  21.8  52
7  22.0  44
8  23.4  44
9  23.8  49


### 実装：共分散

In [3]:
# データの取り出し
x = cov_data['x']
y = cov_data['y']

# サンプルサイズ
n = len(cov_data)

# 標本平均
x_bar = np.mean(x)
y_bar = np.mean(y)

In [4]:
# 共分散
cov = sum((x - x_bar) * (y - y_bar)) / n
round(cov, 3)

6.906

### 実装：分散共分散行列

In [5]:
# 分散の計算
s2_x = np.var(x, ddof=0)
s2_y = np.var(y, ddof=0)

print('xの標本分散：', round(s2_x, 3))
print('yの標本分散：', round(s2_y, 3))

xの標本分散： 3.282
yの標本分散： 25.21


In [6]:
# 共分散
np.cov(x, y, ddof=0)

array([[ 3.2816,  6.906 ],
       [ 6.906 , 25.21  ]])

### 実装：ピアソンの積率相関係数

In [7]:
# 相関係数
rho = cov / np.sqrt(s2_x * s2_y)
round(rho, 3)

0.759

In [8]:
# 相関行列
np.corrcoef(x, y)

array([[1.       , 0.7592719],
       [0.7592719, 1.       ]])

### 実装：クロス集計表

#### 度数をカウントする事例

In [9]:
disease = pd.read_csv('3-5-2-cross.csv')
print(disease.head())

  sunlight disease
0      yes     yes
1      yes     yes
2      yes     yes
3      yes      no
4      yes      no


In [10]:
# クロス集計
cross_1 = pd.crosstab(
    disease['sunlight'],
    disease['disease']
)
print(cross_1)

disease   no  yes
sunlight         
no         2    8
yes        7    3


#### クロス集計表の作成

In [11]:
shoes = pd.read_csv('3-5-3-cross2.csv')
print(shoes)

   store color  sales
0  tokyo  blue     10
1  tokyo   red     15
2  osaka  blue     13
3  osaka   red      9


In [12]:
cross_2 = pd.pivot_table(
    data=shoes,
    values='sales',
    aggfunc='sum',
    index='store',
    columns='color'
)
print(cross_2)

color  blue  red
store           
osaka    13    9
tokyo    10   15
