# 度数分布表とヒストグラム

数値の範囲ごとに区切る時の区切り＝**階級**

階級の範囲の真ん中の値＝**階級値**

各階級にある数値の数＝**度数**

全体を１とした時の割合＝**相対度数**

$$
相対度数＝各階級に属するデータの個数÷すべてのデータの個数
$$

これらをまとめると，**度数分布表**となる．

度数分布表は**ヒストグラム**で表す．

横軸：変数

縦軸：度数or相対度数

棒の幅：階級の幅

棒の中央：階級値

**データ全体の雰囲気を直感的に掴むためにある**

階級の幅を数学的に求める方法は？？

1. 階級の個数をスタージェスの公式により求める
    
    $$
    1+\dfrac{log_{10}データの個数}{log_{10}2}
    $$
    
2. 階級の幅を次の式で求める

$$
\dfrac{（データの最大値）-（データの最小値）}{スタージェスの公式から求めた階級の個数}
$$

あるけど，逆にわかりづらくなることもある

直感的に雰囲気を掴むことが重要だから，，，

In [None]:
import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
import japanize_matplotlib
from matplotlib import pyplot as plt

In [None]:
# Excelファイルのインポート
file_path = 'AdvanceData.xlsx' # Excelファイルのパスを指定
target_column = 'UWES_sum' # 対象の列名を指定

# Excelファイルを読み込む
df = pd.read_excel(file_path)

In [None]:
# 階級の幅をスタージェスの公式で数学的に求める
data = df[target_column].dropna()  # 対象列のデータを取得し、欠損値を除去
N = len(data)  # データ数

# 式: 1 + (log10(N) / log10(2))
sturges_val = 1 + (np.log10(N) / np.log10(2))
num_bins = math.ceil(sturges_val)  # 階級数を整数に切り上げ

# 階級の幅の計算
data_max = np.max(data)
data_min = np.min(data)
class_width = (data_max - data_min) / num_bins

# --- 結果の表示 ---
print(f"データの個数(N): {N}")
print(f"スタージェスの公式による値: {sturges_val:.4f}")
print(f"採用する階級の個数(bins): {num_bins}")
print(f"データの範囲: {data_min} 〜 {data_max} (範囲: {data_max - data_min})")
print(f"計算された階級の幅: {class_width:.4f}")

In [None]:
# 階級の設定
bins = [0, 1.5, 3.0, 4.5, 6.0, 7.5, 9.0, 10.5, 12.0, 13.5, 15.0]
labels = [f'{i}以上-{j}未満' for i, j in zip(bins[:-1], bins[1:])]

In [None]:
# データの区分け
df['階級'] = pd.cut(df[target_column], bins=bins, right=False, labels=labels)

In [None]:
# 階級ごとにデータ数をカウント＝度数
freq_table = df['階級'].value_counts(sort=False).to_frame(name='度数')
print(freq_table)

In [None]:
# 相対度数の計算
freq_table['相対度数'] = freq_table['度数'] / freq_table['度数'].sum()

# 累積度数の計算
freq_table['累積度数'] = freq_table['度数'].cumsum()

# 累積相対度数の計算
freq_table['累積相対度数'] = freq_table['相対度数'].cumsum()

In [None]:
# 度数分布表の表示
freq_table = freq_table.fillna(0) # NaNを0に置換
display(freq_table)

In [None]:
# ヒストグラムの作成
plt.figure(figsize=(10, 6))

plt.hist(df[target_column], bins=bins, edgecolor='black', alpha=0.7)
plt.title('ヒストグラム')
plt.xlabel('点数')
plt.ylabel('度数')
plt.grid(axis='y', alpha=0.5)
plt.show()