### deviation / 標準偏差

In [3]:
# リスト
numbers = [49, 48, 104, 50, 91]

# 平均値を計算
mean = sum(numbers) / len(numbers)

# 各要素から平均値を引いて偏差を計算
deviations = [x - mean for x in numbers]

print(deviations)


[-19.400000000000006, -20.400000000000006, 35.599999999999994, -18.400000000000006, 22.599999999999994]


### Variance / 分散

統計学や確率論において、データセット内の値が平均からどれだけばらついているかを示す尺度です。分散はデータのばらつき度を測定するために使用され、データの散らばり具合を表現します。分散が大きいほどデータが平均から離れて広がっており、分散が小さいほどデータが平均に近いことを示します

$$
\text{分散} (\sigma^2) = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2 
$$


In [34]:
# データセット
data = [15, 18, 20, 23, 25]

# 平均の計算
mean = sum(data) / len(data)
print(mean)

# 各データポイントと平均の差の二乗を計算し、合計する
squared_differences = [(x - mean) ** 2 for x in data]
print(squared_differences)

# 分散の計算
variance = sum(squared_differences) / len(data)

# 結果を表示
print("分散:", variance)


20.2
[27.039999999999992, 4.839999999999997, 0.039999999999999716, 7.840000000000004, 23.040000000000006]
分散: 12.559999999999999


### Frequency / 度数

「度数（Frequency）」は、データセット内の特定の値または範囲が出現する回数を表す統計的な尺度です。度数は、データセット内の異なるカテゴリや値の分布を理解し、要約するのに役立ちます。度数分布表は、度数を示す表であり、特定の値または範囲の頻度を示します。


In [31]:
# サンプルデータ
data = [3, 2, 1, 2, 3, 4, 1, 5, 3, 2]

# データの度数を計算
frequency_dict = {}  # 値をキーとし、度数を値とする辞書を初期化

for value in data:
    if value in frequency_dict:
        frequency_dict[value] += 1
    else:
        frequency_dict[value] = 1

# 度数分布表の表示
print("値   |   度数")
print("-------------")
for value, frequency in frequency_dict.items():
    print(f"{value}    |   {frequency}")

値   |   度数
-------------
3    |   3
2    |   3
1    |   2
4    |   1
5    |   1


### sample mean/標本平均

標本平均とは、母集団から抽出した一部の集団（標本）の平均値のことです。 標本平均を利用すれば、標本の代表値や標準偏差、分散を求めることができます。

In [1]:
data = [10, 20, 30, 40, 50]

# 標本平均を計算
sample_mean = sum(data) / len(data)

print("標本平均:", sample_mean)

標本平均: 30.0


### Confidence Interval / 平均区間

信頼度95%の平均区間（Confidence Interval at 95% Confidence Level）は、統計学において、標本データから計算される平均値の推定に対する信頼性を示すものです。この区間は、標本平均を中心にして、真の母集団平均が含まれる可能性を示すもので、通常、下限と上限の2つの値で表されます。

信頼度95%の平均区間を計算する際には、標本平均、標準誤差（または標準偏差）、サンプルサイズなどの情報が必要です。一般的な方法の一つは、Zスコアを用いて計算することです。Zスコアは、正規分布の標準正規分布表を使用して、信頼度に応じたZ値を求めることができます。

In [9]:
import scipy.stats as stats

# サンプルデータ、標本平均、標準誤差、サンプルサイズを用意する
data = [45, 50, 55, 60, 65]
sample_mean = sum(data) / len(data)
std_deviation = stats.sem(data)  # 標準誤差
sample_size = len(data)

# 信頼度95%の平均区間を計算
confidence_interval = stats.t.interval(0.95, df=sample_size-1, loc=sample_mean, scale=std_deviation)

print("信頼度95%の平均区間:", confidence_interval)

信頼度95%の平均区間: (45.183784192612194, 64.8162158073878)


Zスコア（Z-score）は、統計学で使用される標準化されたスコアです。Zスコアは、あるデータポイントが平均からどれだけ標準偏差の単位数（標準偏差の何倍）だけ離れているかを示す指標です。Zスコアを計算することにより、異なるデータセットを比較したり、正規分布に基づいた統計的な推論を行ったりする際に便利です。

Zスコアの計算式は以下の通りです：

\[Z = \frac{X - \mu}{\sigma}\]

ここで、各変数の意味は次のとおりです：

- \(Z\)：Zスコア
- \(X\)：特定のデータポイントの値
- \(\mu\)：母集団の平均
- \(\sigma\)：母集団の標準偏差

Zスコアを計算することにより、データポイントが平均からどれだけ離れているか、または標準偏差の何倍離れているかを数値化することができます。正規分布の場合、Zスコアを用いると、特定の値が分布内でどの位置にあるかを理解し、統計的な推論や比較を行うのに役立ちます。

Zスコアは、標準化されたデータを比較する、外れ値を検出する、統計的な仮説検定を行うなど、さまざまな統計的なタスクに使用されます。また、Zスコアは正規分布以外の分布にも拡張できることがありますが、その場合は分布のパラメータを考慮に入れる必要があります。

In [13]:
X = 77  # データポイントの値
mu = 70  # 母集団の平均
sigma = 5  # 母集団の標準偏差

# Zスコアを計算
z_score = (X - mu) / sigma

# 結果を表示
print("Zスコア:", z_score)

Zスコア: 1.4


#### t-test / t検定

統計学において2つのグループ（サンプル）の平均値が統計的に有意に異なるかどうかを判定するための仮説検定手法の一つです。具体的には、2つのサンプルの平均値と分散を比較して、差異が統計的に有意かどうかを評価します。t検定は、2つの独立したサンプルを比較する「独立2群t検定」と、同じサンプルの前後で平均値の変化を検定する「対応2群t検定」の2つの主要なバリエーションがあります。

In [20]:
import scipy.stats as stats

sample1 = [72, 75, 78, 80, 82]  # サンプル1
sample2 = [65, 68, 71, 74, 77]  # サンプル2

# t検定を実行
t_statistic, p_value = stats.ttest_ind(sample1, sample2)

# 結果を表示
print("t統計量:", t_statistic)
print("p値:", p_value)


t統計量: 2.3124139952957594
p値: 0.04950218962719467


In [26]:
sample1 = [1,2,3]  # サンプル1
sample2 = [1,2,4]  # サンプル2

# t検定を実行
t_statistic, p_value = stats.ttest_ind(sample1, sample2)

# 結果を表示
print("t統計量:", t_statistic)
print("p値:", p_value)

t統計量: -0.3162277660168381
p値: 0.767643915238903


In [28]:
sample1 = [72, 75, 78, 80, 82]  # サンプル1
sample2 = [65, 68, 71, 74, 77]  # サンプル2

# サンプルの平均値
mean1 = sum(sample1) / len(sample1)
mean2 = sum(sample2) / len(sample2)

# サンプルの分散
variance1 = sum((x - mean1) ** 2 for x in sample1) / (len(sample1) - 1)
variance2 = sum((x - mean2) ** 2 for x in sample2) / (len(sample2) - 1)

# t統計量の計算
n1 = len(sample1)
n2 = len(sample2)

t_statistic = (mean1 - mean2) / ((variance1 / n1 + variance2 / n2) ** 0.5)

# 自由度
degrees_of_freedom = n1 + n2 - 2

# t分布の有意水準0.05におけるt値（両側検定）
critical_value = 2.262  # 有意水準0.05、自由度18の場合のt値

# p値の計算
p_value = 2 * (1 - stats.t.cdf(abs(t_statistic), df=degrees_of_freedom))

# 結果を表示
print("t統計量:", t_statistic)
print("p値:", p_value)

# 有意水準0.05での帰無仮説の検定
if p_value < 0.05:
    print("帰無仮説を棄却します。")
else:
    print("帰無仮説は棄却されません。")

t統計量: 2.3124139952957594
p値: 0.04950218962719455
帰無仮説を棄却します。


#### Null Hypothesis / 帰無仮説

帰無仮説は、実験や観察に基づいて行われた統計的なテストにおいて、検証される仮説の一つであり、通常、特定の効果や関連性が存在しないと仮定される仮説です。

帰無仮説は "H0" と表記されることが一般的で、通常次のように記述されます：

"H0: パラメータ A は効果がない" または "H0: サンプル A とサンプル B は同じ母集団から抽出された" など。

帰無仮説は、統計的な検定の初期段階で設定され、実験結果またはデータの解析に基づいて検証されます。帰無仮説が否定されることを示す統計的な証拠が得られる場合、代替仮説が受け入れられ、効果や関連性が存在することが示唆されます。

帰無仮説の否定は、通常、統計的な検定によって行われ、その結果は「p値」（p-value）として表現されます。p値が事前に設定された有意水準よりも小さい場合、帰無仮説が拒否され、代替仮説が支持されることが一般的です。有意水準は通常、0.05（5%）などの値で設定されますが、研究の文脈によって異なることがあります。


In [15]:
import scipy.stats as stats

data = [15, 18, 20, 23, 25]

null_hypothesis = "H0: データの平均は20である"

# t検定を実行
t_statistic, p_value = stats.ttest_1samp(data, 20)

# p値を表示
print("p値:", p_value)

# 帰無仮説の検証
if p_value < 0.05:  # 有意水準を0.05と仮定
    print("帰無仮説を棄却します。代替仮説が支持されます。")
else:
    print("帰無仮説は棄却されません。")

p値: 0.9155740088398183
帰無仮説は棄却されません。
