In [1]:
import numpy as np
import scipy as sp

pythonを用いてサイコロ投げの振る舞いを観察する。

## 復元抽出
標本空間から何度でも取り出せる

In [2]:
np.random.choice(np.arange(1, 7), 10)

array([4, 2, 3, 5, 6, 4, 3, 1, 6, 4])

## 非復元抽出
標本空間から何度でも取り出せない

In [3]:
np.random.choice(np.arange(1, 7), 5, replace=False)

array([2, 1, 5, 4, 6])

# 期待値と分散

期待値：Xが取りうる値の中で平均的な値を期待値といい、$E[X]$と表す。<br>
　　　　標本空間をRとすると<br>
$
E[X] = \int_{-\infty}^{\infty} x f(x) \, dx
$


In [4]:
# 期待値1、標準偏差2の正規分布に従うデータを100個生成
x = np.random.normal(1, 2, 100)
# データの平均値を計算
x.mean()

1.26703353558903

In [5]:
# データの標準偏差を計算
x.std()

2.079774562667259

In [6]:
# |x-E[x]]| ≦ sd(x) となるデータの割合
np.mean(np.abs(x - np.mean(x)) <= np.std(x))

0.73

In [7]:
 # |x-E[x]]| ≦ 2*sd(x) となるデータの割合
np.mean(np.abs(x - np.mean(x)) <= 2*np.std(x))

0.97

# 分位点

In [9]:
sp.stats.norm.ppf(0.7)

0.5244005127080407

In [10]:
sp.stats.norm.ppf(0.7, loc=1, scale=2)

2.0488010254160813

In [11]:
alpha = 0.05
sp.stats.norm.ppf(1 - alpha)

1.6448536269514722

# 共分散・相関係数

In [12]:
from sklearn.datasets import load_iris

iris = load_iris()
iris.data.shape

(150, 4)

In [13]:
# 分散共分散行列(データ行列の転置を入れる)
np.cov(iris.data.T)

array([[ 0.68569351, -0.042434  ,  1.27431544,  0.51627069],
       [-0.042434  ,  0.18997942, -0.32965638, -0.12163937],
       [ 1.27431544, -0.32965638,  3.11627785,  1.2956094 ],
       [ 0.51627069, -0.12163937,  1.2956094 ,  0.58100626]])

In [14]:
# 相関係数行列(データ行列の転置を入れる)
np.corrcoef(iris.data.T)

array([[ 1.        , -0.11756978,  0.87175378,  0.81794113],
       [-0.11756978,  1.        , -0.4284401 , -0.36612593],
       [ 0.87175378, -0.4284401 ,  1.        ,  0.96286543],
       [ 0.81794113, -0.36612593,  0.96286543,  1.        ]])