### deviation / 標準偏差

In [3]:
# リスト
numbers = [49, 48, 104, 50, 91]

# 平均値を計算
mean = sum(numbers) / len(numbers)

# 各要素から平均値を引いて偏差を計算
deviations = [x - mean for x in numbers]

print(deviations)


[-19.400000000000006, -20.400000000000006, 35.599999999999994, -18.400000000000006, 22.599999999999994]


### sample mean/標本平均

標本平均とは、母集団から抽出した一部の集団（標本）の平均値のことです。 標本平均を利用すれば、標本の代表値や標準偏差、分散を求めることができます。

In [1]:
data = [10, 20, 30, 40, 50]

# 標本平均を計算
sample_mean = sum(data) / len(data)

print("標本平均:", sample_mean)

標本平均: 30.0


### Confidence Interval / 平均区間

信頼度95%の平均区間（Confidence Interval at 95% Confidence Level）は、統計学において、標本データから計算される平均値の推定に対する信頼性を示すものです。この区間は、標本平均を中心にして、真の母集団平均が含まれる可能性を示すもので、通常、下限と上限の2つの値で表されます。

信頼度95%の平均区間を計算する際には、標本平均、標準誤差（または標準偏差）、サンプルサイズなどの情報が必要です。一般的な方法の一つは、Zスコアを用いて計算することです。Zスコアは、正規分布の標準正規分布表を使用して、信頼度に応じたZ値を求めることができます。

In [3]:
import scipy.stats as stats

# サンプルデータ、標本平均、標準誤差、サンプルサイズを用意する
data = [45, 50, 55, 60, 65]
sample_mean = sum(data) / len(data)
std_deviation = stats.sem(data)  # 標準誤差
sample_size = len(data)

# 信頼度95%の平均区間を計算
confidence_interval = stats.t.interval(0.95, df=sample_size-1, loc=sample_mean, scale=std_deviation)

print("信頼度95%の平均区間:", confidence_interval)

信頼度95%の平均区間: (45.183784192612194, 64.8162158073878)


Zスコア（Z-score）は、統計学で使用される標準化されたスコアです。Zスコアは、あるデータポイントが平均からどれだけ標準偏差の単位数（標準偏差の何倍）だけ離れているかを示す指標です。Zスコアを計算することにより、異なるデータセットを比較したり、正規分布に基づいた統計的な推論を行ったりする際に便利です。

Zスコアの計算式は以下の通りです：

\[Z = \frac{X - \mu}{\sigma}\]

ここで、各変数の意味は次のとおりです：

- \(Z\)：Zスコア
- \(X\)：特定のデータポイントの値
- \(\mu\)：母集団の平均
- \(\sigma\)：母集団の標準偏差

Zスコアを計算することにより、データポイントが平均からどれだけ離れているか、または標準偏差の何倍離れているかを数値化することができます。正規分布の場合、Zスコアを用いると、特定の値が分布内でどの位置にあるかを理解し、統計的な推論や比較を行うのに役立ちます。

Zスコアは、標準化されたデータを比較する、外れ値を検出する、統計的な仮説検定を行うなど、さまざまな統計的なタスクに使用されます。また、Zスコアは正規分布以外の分布にも拡張できることがありますが、その場合は分布のパラメータを考慮に入れる必要があります。

In [7]:
X = 80  # データポイントの値
mu = 70  # 母集団の平均
sigma = 5  # 母集団の標準偏差

# Zスコアを計算
z_score = (X - mu) / sigma

# 結果を表示
print("Zスコア:", z_score)

Zスコア: 2.0
