# 正規分布

確率密度関数

$$
f(x)=\dfrac{1}{\sqrt{2x}×xの標準偏差}e^{-\dfrac{1}{2}(\dfrac{x-xの平均}{xの標準偏差})~2}
$$

特徴

- 平均を中心に，左右対称である
- 平均と標準偏差の影響を受ける

「xは平均が〇〇で標準偏差が××の正規分布に従う」

### 正規分布に従うかどうかを調べるためには，Q-Qプロットを使うらしい．

- 点が直線の上に綺麗に並んでいると，正規分布に従っていると判断できる


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats
from scipy.stats import norm
import japanize_matplotlib

In [None]:
file_path = 'AdvanceData.xlsx'  # Excelファイル名
target_column = 'UWES_ave'         # 列名

df = pd.read_excel(file_path)

data = df[target_column].dropna()
print(f"データ読み込み完了: {len(data)} 件")
print(f"基本統計量:\n{data.describe()}")

In [None]:
plt.figure(figsize=(8, 6))

stats.probplot(data, dist="norm", plot=plt)

plt.title(f"Q-Qプロット: {target_column}")
plt.xlabel("理論上の分位数 (正規分布)")
plt.ylabel("実際のデータ値")
plt.grid(True)
plt.show()

In [None]:
# 1. データからパラメータ（平均と標準偏差）を推定する
mu, std = norm.fit(data)

# 2. グラフの設定
plt.figure(figsize=(10, 6))

# ヒストグラム
plt.hist(data, bins=6, density=True, alpha=0.6, color='skyblue', label='実際のデータ')

# 正規分布曲線（理論値)
xmin, xmax = plt.xlim()
x = np.linspace(xmin, xmax, 100)
p = norm.pdf(x, mu, std)

# 曲線をプロット
plt.plot(x, p, 'r', linewidth=2, label=f'正規分布曲線\n(平均={mu:.2f}, SD={std:.2f})')

# 3. 装飾
plt.title(f'{target_column} の分布と正規分布曲線の比較')
plt.xlabel('値')
plt.ylabel('確率密度')
plt.legend()
plt.grid(True, alpha=0.5)

plt.show()