# データサイエンス 第8回
## 仮説検定

In [8]:
# 必要に応じて次の行のコメントアウトを解除し，ライブラリをインストールしてください
!pip install geopandas matplotlib numpy pandas pyserial requests japanize-matplotlib scikit-learn setuptools 


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m25.2[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [9]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib 
%matplotlib inline 
import random
import math
from scipy import stats

<span style="font-size: 20px; color: #F08000;">例題1　関連2群の t 検定（σ_d が未知の場合）</span>

ある２つの肥料，肥料 $A$ と $B$ があったとする．下記データについて有意水準 5% の検定を行え

なお，差 $d$ の母標準偏差 $\sigma_d$ は予め $\sigma_d = 0.2$ 未知あるものとする

|      | 肥料A  | 肥料B  |
| ---- | ------ | ------ | 
| 圃場A | 3.2    | 3.4    |
| 圃場B | 4.0    | 4.3    | 
| 圃場C | 3.5    | 3.9    | 
| 圃場D | 3.1    | 3.5    | 
| 圃場E | 3.2    | 3.1    |

In [10]:
# データ
before = np.array([3.2, 4.0, 3.5, 3.1, 3.2])
after = np.array([3.4, 4.3, 3.9, 3.5, 3.1])

# 差を計算
d = after - before
mean_d = np.mean(d)  # 平均差
sigma_d = 0.2        # 母標準偏差（既知）
n = len(d)           # サンプルサイズ

z_statistic = mean_d / (sigma_d / np.sqrt(n))  # z値

# p値の計算（両側検定）
p_value = 2 * (1 - stats.norm.cdf(abs(z_statistic)))

# 有意水準
alpha = 0.05

# 結果の表示
print(f"平均差: {mean_d:.2f}")
print(f"計算されたz値: {z_statistic:.2f}")
print(f"p値: {p_value:.4f}")

if p_value < alpha:
    print("結果: 統計的に有意です（帰無仮説を棄却します）．")
else:
    print("結果: 統計的に有意ではありません（帰無仮説を棄却できません）．")


平均差: 0.24
計算されたz値: 2.68
p値: 0.0073
結果: 統計的に有意です（帰無仮説を棄却します）．


<span style="font-size: 20px; color: #F08000;">問題1</span>

ある運動の前後に脈拍を記録したところ，以下のようになった

下記データについて有意水準 5% の検定を行え

なお，差 $d$ の母標準偏差 $\sigma_d=3$ が既知であるものとする

|        | 運動前  | 運動後  |
| ------ | ------ | ------ | 
| 被験者A | 78     | 82     |
| 被験者B | 70     | 71     | 
| 被験者C | 73     | 74     | 
| 被験者D | 72     | 76     | 
| 被験者E | 76     | 74     |
| 被験者F | 71     | 73     |
| 被験者G | 77     | 82     |

In [11]:
##############################
# 問題1のコードを記入

##############################

<span style="font-size: 20px; color: #F08000;">例題2</span>

ある２つの肥料，肥料 $A$ と $B$ があったとする

下記データについて有意水準 5% の検定を行え

なお，差 $d$ の母標準偏差 $\sigma_d$ は未知であるものとする

|      | 肥料A  | 肥料B  |
| ---- | ------ | ------ | 
| 圃場A | 3.2    | 3.4    |
| 圃場B | 4.0    | 4.3    | 
| 圃場C | 3.5    | 3.9    | 
| 圃場D | 3.1    | 3.5    | 
| 圃場E | 3.2    | 3.1    |

In [12]:
# データ
before = np.array([3.2, 4.0, 3.5, 3.1, 3.2])
after = np.array([3.4, 4.3, 3.9, 3.5, 3.1])

# 差を計算
d = after - before
mean_d = np.mean(d)          # 平均差
std_d = np.std(d, ddof=1)    # 不偏標準偏差
n = len(d)                   # サンプルサイズ

t_statistic = mean_d / (std_d / np.sqrt(n))  # t値

# p値の計算（両側検定）
p_value = 2 * (1 - stats.t.cdf(abs(t_statistic), df=n-1))

# 有意水準
alpha = 0.05

# 結果の表示
print(f"平均差: {mean_d:.2f}")
print(f"不偏標準偏差: {std_d:.2f}")
print(f"計算されたt値: {t_statistic:.2f}")
print(f"p値: {p_value:.4f}")

if p_value < alpha:
    print("結果: 統計的に有意です（P<0.05）（帰無仮説を棄却します）．")
else:
    print("結果: 統計的に有意ではありません（帰無仮説を棄却できません）．")

平均差: 0.24
不偏標準偏差: 0.21
計算されたt値: 2.59
p値: 0.0608
結果: 統計的に有意ではありません（帰無仮説を棄却できません）．


<span style="font-size: 20px; color: #F08000;">問題2</span>

ある運動の前後の脈拍数を記録したところ，以下のようになった

下記データについて有意水準 5% の検定を行え

なお，差 $d$ の母標準偏差 $\sigma_d$ は未知であるものとする

|        | 運動前  | 運動後  |
| ------ | ------ | ------ | 
| 被験者A | 78     | 82     |
| 被験者B | 70     | 71     | 
| 被験者C | 73     | 74     | 
| 被験者D | 72     | 76     | 
| 被験者E | 76     | 74     |
| 被験者F | 71     | 73     |
| 被験者G | 77     | 82     |

In [13]:
##############################
# 問題2のコードを記入

##############################