# カイ二乗分布
カテゴリデータ同士の関係を見る

x>0の時

$$
f(x)=\dfrac{1}{2^{\dfrac{自由度}{2}}×\int_0^\infty{x^{\dfrac{自由度}{2}-1}e^{-1}dx}}×x^{\dfrac{自由度}{2}-1}×e^{-\dfrac{x}{2}}
$$

それ以外は，f(x)=0

この時，xは自由度〇〇のカイ二乗分布に従う

カイ二乗分布表では，ある面積の時の横軸の値を求めることができる

1. 適合度検定（Goodness of Fit Test）
**「このデータは、理論通りの確率で起きているか？」**を調べるのに使います。

例：サイコロのイカサマ判定

予想: サイコロを60回振ったら、1〜6の目はそれぞれ10回ずつ出るはず。

結果: 1が5回、6が20回も出た。

カイ二乗分布の出番: 「このズレは偶然（誤差）なのか？ それとも重心がずれている（イカサマ）なのか？」を判定します。

2. 独立性の検定（Test of Independence）
**「2つの事柄に関連があるか？」**を調べるのに使います（クロス集計表を使います）。

例：アンケート分析

「性別（男性・女性）」と「好きな色の傾向」に関係はあるか？

「薬を飲んだかどうか」と「病気が治ったかどうか」に関係はあるか？

カイ二乗分布の出番: 「関係がある（独立ではない）」のか、「たまたま数字が偏っただけ（独立である）」なのかを判定します。

In [None]:
import pandas as pd
import scipy.stats as stats
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib  # 日本語表示用

In [None]:
# 1. クロス集計表（観測度数）を作成
observed_df = pd.DataFrame(
    data=[
        [20, 30],  # 男性の結果 (好き, 嫌い)
        [35, 15]   # 女性の結果 (好き, 嫌い)
    ],
    index=['男性', '女性'],
    columns=['好き', '嫌い']
)

print("1. 観測されたデータ（クロス集計表）")
print(observed_df)

In [None]:
# 2. 独立性の検定を実行
# stats.chi2_contingency(データ)
# 戻り値: カイ二乗値(chi2), p値(p), 自由度(dof), 期待度数(expected)
chi2, p, dof, expected = stats.chi2_contingency(observed_df, correction=False)

# データ数が少ない場合は True (デフォルト) にするのが一般的

In [None]:
# 3. 結果の表示
print(" 2. 検定結果 ")
print(f"カイ二乗統計量 (Chi2): {chi2:.4f}")
print(f"p値 (p-value): {p:.5f}")
print(f"自由度 (Degrees of Freedom): {dof}")

print("\n 3. 期待度数（もし性別と好みに関係がなかったらこうなるはずの数値） ")
expected_df = pd.DataFrame(expected, index=observed_df.index, columns=observed_df.columns)
print(expected_df)
print("\n")

In [None]:
# 4. 判定
print("--- 4. 結論 ---")
if p < 0.05:
    print(f"p値({p:.5f}) < 0.05 なので、「帰無仮説」を棄却します。")
    print("結論: 性別と好みの間には『有意な関連がある』（独立ではない）。")
    print("→ つまり、性別によって好みが違うと言える。")
else:
    print(f"p値({p:.5f}) >= 0.05 なので、「帰無仮説」を棄却できません。")
    print("結論: 性別と好みの間には『関連があるとは言えない』（独立である）。")
    print("→ つまり、この差は誤差の範囲内かもしれない。")


In [None]:
# 5. 可視化（ヒートマップで差を確認）
plt.figure(figsize=(8, 4))

# 観測度数と期待度数の差（残差）を図示
# プラスなら「予想より多かった」、マイナスなら「予想より少なかった」
diff = observed_df - expected_df

sns.heatmap(diff, annot=True, center=0, cmap='coolwarm', fmt='.1f')
plt.title('観測値と期待値のズレ（残差）\n赤いほど「予想より多い」、青いほど「予想より少ない」')
plt.show()