## Pythonによる記述統計：多変量データ編

In [1]:
import pandas as pd
import scipy as sp

%precision 3

'%.3f'

In [2]:
fish_multi = pd.read_csv("3-2-1-fish_multi.csv")
print(fish_multi)

  species  length
0       A       2
1       A       3
2       A       4
3       B       6
4       B       8
5       B      10


### グループ別統計量
グループ別の統計量をpythonでは一気に扱うことができる
SQLやSpreadSheetで一々計算しなくても一気に計算して集計表にしてくれる

In [3]:
group = fish_multi.groupby("species")
print(group.mean())

         length
species        
A             3
B             8


In [4]:
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


### クロス集計

In [5]:
shoes = pd.read_csv("3-2-2-shoes.csv")
print(shoes)

   store color  sales
0  tokyo  blue     10
1  tokyo   red     15
2  osaka  blue     13
3  osaka   red      9


pandasのpivot_table関数でクロス集計を行うことができる

In [6]:
cross = pd.pivot_table(
        data = shoes,
        values = "sales",
        aggfunc = "sum",
        index = "store",
        columns = "color"
)
print(cross)

color  blue  red
store           
osaka    13    9
tokyo    10   15


### 共分散について

共分散は、2つの連続型の変数の関係性を見るのに使われる統計量です。

1. 共分散が0よりも大きい
    片方の変数が大きい値を取れば、もう片方も大きくなる
2. 共分散が0よりも小さい
    片方の変数が大きい値を取れば、もう片方は小さくなる
3. 共分散が丁度0
    変数同士に関係性が見られない

In [7]:
cov_data = pd.read_csv("3-2-3-cov.csv")
print(cov_data)

      x   y
0  18.5  34
1  18.7  39
2  19.1  41
3  19.7  38
4  21.5  45
5  21.7  41
6  21.8  52
7  22.0  44
8  23.4  44
9  23.8  49


共分散を取り扱うための要素を予め洗い出しておく

In [8]:
# データ取り出し
x = cov_data["x"]
y = cov_data["y"]

# サンプルサイズ
N = len(cov_data)
#　平均値の計算
mu_x = sp.mean(x)
mu_y = sp.mean(y)

#### 共分散の計算

In [9]:
cov_sample = sum((x - mu_x) * (y - mu_y)) / (N-1)
cov_sample

7.673

ここでは、共分散の性質と式を覚えておくことが大切。
出し方は随時ググれば良いので、どんな時に使えるか覚えておく

### 分散共分散行列
複数の変数において、分散と共分散を行列形式でまとめたもの
算出にはscipyのcov関数を使う

In [10]:
sp.cov(x,y, ddof = 0)

array([[ 3.282,  6.906],
       [ 6.906, 25.21 ]])

In [11]:
sp.cov(x,y,ddof = 1)

array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

### ピアソンの積率相関係数
相関係数は共分散を最大値1、最小値-1に標準化した値です

In [13]:
# 分散の計算
sigma_2_x = sp.var(x, ddof =1)
sigma_2_y = sp.var(y, ddof =1)

# 相関係数
rho = cov_sample / sp.sqrt(sigma_2_x * sigma_2_y)
rho

0.759