# 3章 記述統計と推測統計

例3-1 Pythonで算術平均を求める例

In [None]:
# 飼っているペットの数
sample = [1, 3, 2, 5, 7, 0, 2, 3]

mean = sum(sample) / len(sample)
mean

2.875

例3-2 Pythonで加重平均を求める例

In [None]:
# 3回の中間試験に0.20の重みを、卒業試験に0.40の重みを与える。
sample = [90, 80, 63, 87]
weights = [0.20, 0.20, 0.20, 0.40]

weighted_mean = sum(s * w for s,w in zip(sample, weights)) / sum(weights)
weighted_mean

81.4

例3-3 Pythonでパーセント以外の比率で加重平均を求める例

In [None]:
# 各試験の重みを1とし、卒業試験のみ2とする
sample = [90, 80, 63, 87]
weights = [1.0, 1.0, 1.0, 2.0]

weighted_mean = sum(s * w for s,w in zip(sample, weights)) / sum(weights)
weighted_mean

81.4

例3-4 Pythonで中央値を求める例

In [None]:
# 飼っているペットの数
sample = [0, 1, 5, 7, 9, 10, 14]

def median(values):
    ordered = sorted(values)
    n = len(ordered)
    mid = int(n / 2) - 1 if n % 2 == 0 else int(n/2)

    if n % 2 == 0:
        return (ordered[mid] + ordered[mid+1]) / 2.0
    else:
        return ordered[mid]

median(sample)

7

例3-5 Pythonで最頻値を求める例

In [None]:
from collections import defaultdict

# 飼っているペットの数
sample = [1, 3, 2, 5, 7, 0, 2, 3]


def mode(values):
    counts = defaultdict(lambda: 0)

    for s in values:
        counts[s] += 1

    max_count = max(counts.values())
    modes = [v for v in set(values) if counts[v] == max_count]
    return modes

mode(sample)

[2, 3]

例3-6 Pythonで分散を求める例

In [None]:
# 飼っているペットの数
data = [0, 1, 5, 7, 9, 10, 14]

def variance(values):
    mean = sum(values) / len(values)
    _variance = sum((v - mean) ** 2 for v in values) / len(values)
    return _variance

variance(data)

21.387755102040813

例3-7 Pythonで標準偏差を求める例

In [None]:
from math import sqrt

# 飼っているペットの数
data = [0, 1, 5, 7, 9, 10, 14]

def variance(values):
    mean = sum(values) / len(values)
    _variance = sum((v - mean) ** 2 for v in values) / len(values)
    return _variance

def std_dev(values):
    return sqrt(variance(values))

std_dev(data)

4.624689730353898

例3-8 標本の標準偏差を求める例

In [None]:
from math import sqrt

# 飼っているペットの数
data = [0, 1, 5, 7, 9, 10, 14]


def variance(values, is_sample: bool = False):
    mean = sum(values) / len(values)
    _variance = sum((v - mean) ** 2 for v in values) / \
      (len(values) - (1 if is_sample else 0))

    return _variance


def std_dev(values, is_sample: bool = False):
    return sqrt(variance(values, is_sample))

In [None]:
"VARIANCE = {}".format(variance(data, is_sample=True))

'VARIANCE = 24.95238095238095'

In [None]:
"STD DEV = {}".format(std_dev(data, is_sample=True))

'STD DEV = 4.99523582550223'

例3-9 正規分布の確率密度関数のPythonでの実装例

In [None]:
import math

# xにおける正規分布の確率密度を返す
def normal_pdf(x: float, mean: float, std_dev: float) -> float:
    return (1.0 / (2.0 * math.pi * std_dev ** 2) ** 0.5) * \
        math.exp(-1.0 * ((x - mean) ** 2 / (2.0 * std_dev ** 2)))

例3-10 Pythonでの正規分布のCDFの例

In [None]:
from scipy.stats import norm

mean = 64.43
std_dev = 2.99

x = norm.cdf(64.43, mean, std_dev)
print(x)

0.5


例3-11 中間部分の範囲の確率をCDFを使って求める例

In [None]:
from scipy.stats import norm

mean = 64.43
std_dev = 2.99

x = norm.cdf(66, mean, std_dev) - norm.cdf(62, mean, std_dev)

print(x)

例3-12 Pythonで【`ppf()`】関数を呼び出してICDFを使う例

In [None]:
from scipy.stats import norm

x = norm.ppf(0.95, loc=64.43, scale=2.99)
print(x)

69.3481123445849


例3-13 正規分布で乱数を生成する例

In [None]:
import random
from scipy.stats import norm

for i in range(0,1000):
    random_p = random.uniform(0.0, 1.0)
    random_weight = norm.ppf(random_p,  loc=64.43, scale=2.99)
    print(random_weight)


65.51661792558392
73.65567911304186
67.08404188469665
65.44969720110713
67.09422389351431
62.89146873836303
67.03237777798009
69.08282635029354
64.23656755407887
64.32514681690843
62.6992058645812
64.79641829135991
67.18737477183961
60.86839206612168
65.38916808796657
64.25832505996974
63.3293403961548
65.21427857623142
66.19827693584598
66.70835826887993
63.892611025122754
64.80126302595724
63.41697021968828
66.38527866428115
67.70565945678324
65.70741791304476
66.59978537249461
65.83234194177639
66.42162024518608
64.5121325021183
72.33702345887296
67.67016118645248
64.41253458050235
62.816941367817435
62.65926703861875
70.09202298473376
63.396403084691315
64.0635835151547
64.95853961624992
67.04587681945152
66.53959124062449
62.03086434647768
71.64745253493311
67.39111101762471
62.34122216446413
67.79280186812836
72.23060266020745
67.21458364514565
63.175141346390895
61.812747345337904
65.96569201144993
64.47895616708806
66.21190576596398
67.92202575925012
62.17507606999932
68.816731

例3-14 x値からZスコアを求め、それを元に戻す例

In [None]:
def z_score(x, mean, std):
    return (x - mean) / std


def z_to_x(z, mean, std):
    return (z * std) + mean


mean = 140000
std_dev = 3000
x = 150000

# Zスコアを求めてxに戻す
z = z_score(x, mean, std_dev)
back_to_x = z_to_x(z, mean, std_dev)

print("Zスコア: {}".format(z))
print("xに戻す: {}".format(back_to_x))

Zスコア: 3.3333333333333335
xに戻す: 150000.0


例3-15 Pythonで中心極限定理を確認する例

In [None]:
# 一様な分布の標本は、平均を取ると正規分布に近づいていく
import random
import plotly.express as px

sample_size = 31
sample_count = 1000

# 中心極限定理： 0.0から1.0の範囲のランダムな値を31個ずつ持つ標本を1000回生成
x_values = [(sum([random.uniform(0.0, 1.0) for i in range(sample_size)]) / \
    sample_size)
            for _ in range(sample_count)]

y_values = [1 for _ in range(sample_count)]

px.histogram(x=x_values, y = y_values, nbins=20).show()

例3-16 臨界z値を求める例

In [None]:
import numpy as np
from scipy.stats import norm

def critical_z_value(p):
    norm_dist = norm(loc=0.0, scale=1.0)
    left_tail_area = (1.0 - p) / 2.0
    upper_area = 1.0 - ((1.0 - p) / 2.0)
    return norm_dist.ppf(left_tail_area), norm_dist.ppf(upper_area)

_critical_z_value = critical_z_value(p=0.95)
print(np.array(_critical_z_value, dtype=np.float64))

[-1.95996398  1.95996398]


例3-17 Pythonで信頼区間を求める例

In [None]:
from math import sqrt
from scipy.stats import norm
import numpy as np

def critical_z_value(p):
    norm_dist = norm(loc=0.0, scale=1.0)
    left_tail_area = (1.0 - p) / 2.0
    upper_area = 1.0 - ((1.0 - p) / 2.0)
    return norm_dist.ppf(left_tail_area), norm_dist.ppf(upper_area)


def confidence_interval(p, sample_mean, sample_std, n):
    # 標本のサイズは31以上にする

    lower, upper = critical_z_value(p)
    lower_ci = lower * (sample_std / sqrt(n))
    upper_ci = upper * (sample_std / sqrt(n))

    return sample_mean + lower_ci, sample_mean + upper_ci

print(np.array(confidence_interval(p=.95, sample_mean=64.408, sample_std=2.05, n=31), dtype=np.float64))

[63.68635916 65.12964084]


例3-18 15日から21日の間に回復する確率を求める例

In [None]:
from scipy.stats import norm

# 風邪の平均回復期間は18日、標準偏差は1.5日とする
mean = 18
std_dev = 1.5

# 回復期間が15日から21日の範囲に収まる確率は95%となる
x = norm.cdf(21, mean, std_dev) - norm.cdf(15, mean, std_dev)
print(x)

0.9544997361036416


例3-19 5%の面積に対応するx値を得る例

In [None]:
from scipy.stats import norm

# 風邪の平均回復期間は18日、標準偏差は1.5日とする
mean = 18
std_dev = 1.5

# 5%の面積に対応するx値を得る
x = norm.ppf(0.05, mean, std_dev)

print(x)

15.53271955957279


例3-20 片側検定のp値を求める例

In [None]:
from scipy.stats import norm

# 風邪の平均回復期間は18日、標準偏差は1.5日とする
mean = 18
std_dev = 1.5

# 16日以下となる確率
p_value = norm.cdf(16, mean, std_dev)
print(p_value)

0.09121121972586788


例3-21 統計的有意性が5%となる範囲を求める例

In [None]:
from scipy.stats import norm

# 風邪の平均回復期間は18日、標準偏差は1.5日とする
mean = 18
std_dev = 1.5

# 2.5%の面積のx値
x1 = norm.ppf(0.025, mean, std_dev)

# 97.5%の面積のx値
x2 = norm.ppf(0.975, mean, std_dev)

print(x1)
print(x2)

15.060054023189918
20.93994597681008


例3-22 両側検定のp値を求める例

In [None]:
from scipy.stats import norm

# 風邪の平均回復期間は18日、標準偏差は1.5日とする
mean = 18
std_dev = 1.5

# 16日以下の確率
p1 = norm.cdf(16, mean, std_dev)

# 20日以上の確率
p2 = 1.0 - norm.cdf(20, mean, std_dev)

# 両側のp値
p_value = p1 + p2
print(p_value)

0.18242243945173575


例3-23 t分布で臨界値範囲を求める例

In [None]:
from scipy.stats import t

# 標本のサイズが25のときの
# 95%信頼区間の臨界値範囲を得る

n = 25
lower = t.ppf(0.025, df=n-1)
upper = t.ppf(0.975, df=n-1)

print(lower, upper)

-2.063898561628021 2.0638985616280205
