# 第3部　Pythonによるデータ分析｜Pythonで学ぶ統計学入門

## 2章　Pythonによる記述統計：多変量データ編

### 多変量データとpandasデータフレーム

In [1]:
# 数値計算に使うライブラリ
import pandas as pd
import scipy as sp

# 表示桁数の指定
%precision 3

'%.3f'

### グループ別の統計量

In [2]:
fish_multi = pd.read_csv("3-2-1-fish_multi.csv")
print(fish_multi)

  species  length
0       A       2
1       A       3
2       A       4
3       B       6
4       B       8
5       B      10


In [3]:
# 魚の種類ごとの集計
group = fish_multi.groupby("species")
print(group.mean())

         length
species        
A             3
B             8


In [24]:
print(group.std(ddof = 1))

         length
species        
A           1.0
B           2.0


In [25]:
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


### 実装：クロス集計表

In [6]:
shoes = pd.read_csv("3-2-2-shoes.csv")
print(shoes)

   store color  sales
0  tokyo  blue     10
1  tokyo   red     15
2  osaka  blue     13
3  osaka   red      9


In [7]:
cross = pd.pivot_table(
    data = shoes,
    values = "sales",
    aggfunc = "sum",
    index = "store",
    columns = "color"
)
print(cross)

color  blue  red
store           
osaka    13    9
tokyo    10   15


### 共分散を計算するためのデータの読み込み

In [8]:
cov_data = pd.read_csv("3-2-3-cov.csv")
print(cov_data)

      x   y
0  18.5  34
1  18.7  39
2  19.1  41
3  19.7  38
4  21.5  45
5  21.7  41
6  21.8  52
7  22.0  44
8  23.4  44
9  23.8  49


In [9]:
# データの取り出し
x = cov_data["x"]
y = cov_data["y"]

# サンプルサイズ
N = len(cov_data)

# 平均値の計算
mu_x = sp.mean(x)
mu_y = sp.mean(y)

In [10]:
# 標本共分散
cov_sample = sum((x - mu_x) * (y - mu_y)) / N
cov_sample

6.906

In [11]:
# 共分散
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)
cov

7.673

### 実装：分散共分散行列

In [12]:
# 標本共分散
sp.cov(x, y, ddof = 0)

array([[  3.282,   6.906],
       [  6.906,  25.21 ]])

In [13]:
# 不偏共分散
sp.cov(x, y, ddof = 1)

array([[  3.646,   7.673],
       [  7.673,  28.011]])

### 実装：ピアソンの積率相関係数

In [14]:
# 分散の計算
sigma_2_x = sp.var(x, ddof = 1)
sigma_2_y = sp.var(y, ddof = 1)

# 相関係数
rho = cov / sp.sqrt(sigma_2_x * sigma_2_y)
rho

0.759

In [15]:
# 分散の計算
sigma_2_x_sample = sp.var(x, ddof = 0)
sigma_2_y_sample = sp.var(y, ddof = 0)

# 相関係数
cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)

0.759

In [16]:
# 相関行列
sp.corrcoef(x, y)

array([[ 1.   ,  0.759],
       [ 0.759,  1.   ]])