# 基準化と偏差値

**基準化（標準化）**：データの散らばり具合から，点数の価値を検討しやすくするデータ変換

基準化されたデータ＝**基準値**

$$
\dfrac{(個々のデータ)-（平均）}{標準偏差}=基準値
$$

### 基準化の特徴

- 基準値の平均は必ず０
- 基準値の標準偏差は必ず１
- どのような単位でも上記の特徴がある

偏差値は基準値を応用したものである

$$
偏差値＝基準値×10+50
$$

### 偏差値の特徴

- 偏差値の平均は必ず50
- 基準値の標準偏差は必ず10
- どのような単位でも上記の特徴がある

集団が違う時，比較はできない
満点が異なる変数の比較・単位が異なる変数の比較
が可能となる

散らばりの程度を表す＝標準偏差

最小値：０（全部同じデータ）

$$
\dfrac{\sqrt{(個々のデータ-平均)^2を足したもの}}{データの個数}
$$

$$
\dfrac{\sqrt{(個々のデータ-平均)^2を足したもの}}{データの個数-1}
$$

このような考え方もある

前者：母集団の標準偏差を求める

後者：標本の標準偏差を求める

In [None]:
import pandas as pd

In [None]:
# データ例
data = {
    '名前': ['Aさん', 'Bさん', 'Cさん', 'Dさん', 'Eさん'],
    '点数': [85, 60, 72, 95, 48]
}
df = pd.DataFrame(data)

In [None]:
# Excelファイルのインポート
#file_path = 'AdvanceData.xlsx' # Excelファイルのパスを指定
#df = pd.read_excel(file_path)

In [None]:
# 平均と標準偏差を求める
# 平均 (Mean)
mean = df['点数'].mean()

# 標準偏差 (Standard Deviation)
std = df['点数'].std(ddof=0)

In [None]:
# 基準化
df['基準化(Z)'] = (df['点数'] - mean) / std

In [None]:
# 偏差値
df['偏差値'] = 50 + (10 * df['基準化(Z)'])

In [None]:
# 結果の表示
print(f"平均点: {mean}")
print(f"標準偏差: {std:.2f}")
display(df)