In [1]:
# ライブラリのimport
import numpy as np
import scipy as sp
from scipy import stats
import pandas as pd
# 表示桁数の指定
%precision 3

'%.3f'

In [2]:
fish_multi = pd.read_csv("3-2-1-fish_multi.csv")

In [3]:
fish_multi

Unnamed: 0,species,length
0,A,2
1,A,3
2,A,4
3,B,6
4,B,8
5,B,10


### <font color='blue'>グループ別の統計量</font>

魚の種類ごとに平均値を求める。<br>

In [4]:
# まずは種類ごとのグループを作成
group = fish_multi.groupby("species")

In [5]:
group()

<pandas.core.groupby.DataFrameGroupBy object at 0x110f22e10>

In [5]:
# 種類ごとに平均値を求めた
print(group.mean())

         length
species        
A             3
B             8


In [6]:
# 標準偏差も求める
print(group.std(ddof=1))

         length
species        
A           1.0
B           2.0


In [7]:
# 平均値、標準偏差、四分位点をまとめて出力
group.describe()

Unnamed: 0_level_0,length,length,length,length,length,length,length,length
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max
species,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2
A,3.0,3.0,1.0,2.0,2.5,3.0,3.5,4.0
B,3.0,8.0,2.0,6.0,7.0,8.0,9.0,10.0


### <font color='blue'>クロス集計表</font>

In [8]:
shoes = pd.read_csv("3-2-2-shoes.csv")

In [9]:
shoes

Unnamed: 0,store,color,sales
0,tokyo,blue,10
1,tokyo,red,15
2,osaka,blue,13
3,osaka,red,9


以下にクロス集計表を実装する。<br>

In [10]:
cross = pd.pivot_table(
    data = shoes, # データの指定
    values = "sales", # 集計対象
    aggfunc = "sum", # 集計のための関数
    index = "store", # 行を指定
    columns = "color" # 列を指定
)

In [11]:
# 売れた個数の表
cross

color,blue,red
store,Unnamed: 1_level_1,Unnamed: 2_level_1
osaka,13,9
tokyo,10,15


### <font color='blue'>共分散</font>

共分散は、２つの連続型の変数の関係性を見るときに使われる。<br>

共分散が０より大:<br>
    片方の変数が大きい値をとれば、もう片方も大きくなる。<br>
共分散が0より小:<br>
片方の変数が大きい値をとれば、もう片方は小さくなる。<br>
共分散が0ちょうど:<br>
変数同士に関係性が見られない<br>

### <font color='blue'>分散共分散行列</font>

分散共分散行列とは、複数の式において、分散と共分散の一覧を行列の形式でまとめたもの。<br>

In [12]:
cov_data = pd.read_csv("3-2-3-cov.csv")

In [13]:
cov_data

Unnamed: 0,x,y
0,18.5,34
1,18.7,39
2,19.1,41
3,19.7,38
4,21.5,45
5,21.7,41
6,21.8,52
7,22.0,44
8,23.4,44
9,23.8,49


In [14]:
# データの取り出し
x = cov_data["x"]
y = cov_data["y"]

In [15]:
# サンプルサイズ
N = len(cov_data)

In [16]:
N

10

#### <font color='blue'>以下注意</font>

In [22]:
mu_x = sp.mean(x)
mu_y = sp.mean(y)

In [23]:
# 共分散の計算
cov_sample = sum((x - mu_x) * (y - mu_y)) / N

In [24]:
cov_sample

6.906

In [25]:
# 分母をN - 1とした共分散を計算
cov = sum((x - mu_x) * (y - mu_y)) / (N - 1)

In [26]:
cov

7.673

### <font color='blue'>共分散行列</font>

scipyのcov関数を用いると、短いコードで共分散行列をかける。<br>

In [27]:
sp.cov(x, y, ddof=0)

array([[ 3.282,  6.906],
       [ 6.906, 25.21 ]])

In [28]:
sp.cov(x, y, ddof=1)

array([[ 3.646,  7.673],
       [ 7.673, 28.011]])

### <font color='blue'>ピアソンの積立相関係数</font>

In [29]:
# 分散の計算
sigma_2_x = sp.var(x, ddof=1)
sigma_2_y = sp.var(y, ddof=1)

In [30]:
p = cov / sp.sqrt(sigma_2_x * sigma_2_y)

In [31]:
p

0.759

分母の違う分散でも同じ値になっていることに注意

In [32]:
sigma_2_x_sample = sp.var(x, ddof=0)
sigma_2_y_sample = sp.var(y, ddof=0)

In [35]:
p_sample = cov_sample / sp.sqrt(sigma_2_x_sample * sigma_2_y_sample)

In [36]:
p_sample

0.759

In [37]:
# 相関行列
sp.corrcoef(x, y)

array([[1.   , 0.759],
       [0.759, 1.   ]])