# JupyterLite（xeus-r）で学ぶ 統計テスト演習（R）

このノートブックは、ブラウザだけで動作する JupyterLite（R カーネル：xeus-r）を使って、
代表的な統計テストを体験するための演習用教材です。

扱う内容：

1. データ生成と確認
2. t検定（1標本／対応のない2標本／対応あり2標本）
3. カイ二乗（χ²）検定
4. 割合の検定（prop.test, binom.test）
5. 分散分析（ANOVA）
6. 相関分析（cor.test）
7. 回帰分析（lm）

※ すべて R の標準パッケージ（主に `stats`）のみで実行できます。

## 1. データ生成と確認

ここでは、演習用の **人工データ（乱数）** を作成します。

- テストの点数（2つのグループ）
- カテゴリデータ（性別 × 合否）


In [None]:
# 乱数のシード（毎回同じ結果が出るように）
set.seed(123)

# グループ（1: 従来法, 2: 新しい学習法）
group <- factor(rep(c("従来法", "新しい学習法"), each = 30))

# 各グループのテスト得点（正規分布から乱数生成）
score <- c(
  rnorm(30, mean = 70, sd = 10),  # 従来法
  rnorm(30, mean = 75, sd = 10)   # 新しい学習法
)

# データフレームとしてまとめる
dat <- data.frame(group = group, score = score)

# 先頭を確認
head(dat)

## 2. t検定（平均の差の検定）

### 2-1. 1標本 t検定

「得点の平均が 70 と等しいかどうか」を検定します。

In [None]:
# 1標本 t検定（全体平均が 70 と等しいか）
t.test(dat$score, mu = 70)

### 2-2. 対応のない 2標本 t検定

従来法グループと新しい学習法グループの平均点に差があるかどうかを検定します。

In [None]:
# 対応のない2標本 t検定
t.test(score ~ group, data = dat)

### 2-3. 対応のある t検定

同一人物の「前後」を比較したい場合は、対応のある t検定を使います。

In [None]:
# 対応のある t検定の例（人工データ）

set.seed(456)
before <- rnorm(30, mean = 60, sd = 5)
after  <- before + rnorm(30, mean = 3, sd = 5)  # 介入後に少し点数が上がるイメージ

t.test(before, after, paired = TRUE)

## 3. カイ二乗（χ²）検定

カテゴリ変数同士の関係を検定するのに用います。

ここでは「性別（M/F）」と「合否（Pass/Fail）」の独立性を検定します。

In [None]:
set.seed(789)

gender <- factor(sample(c("M", "F"), size = 60, replace = TRUE))
pass   <- factor(sample(c("Pass", "Fail"), size = 60, replace = TRUE))

tbl <- table(gender, pass)
tbl

In [None]:
# カイ二乗検定
chisq.test(tbl)

サンプルサイズが小さいときは、Fisher の正確検定を使うこともあります。

In [None]:
# Fisher の正確検定（サンプルが小さい場合など）
fisher.test(tbl)

## 4. 割合の検定（prop.test, binom.test）

### 4-1. 2群の割合の差の検定（prop.test）

In [None]:
# 例：A 施策 40/100 人成功, B 施策 30/100 人成功
prop.test(c(40, 30), c(100, 100))

### 4-2. 二項検定（binom.test）

「成功率が理論値 p と等しいか」を検定します。

In [None]:
# 例：80 回中 45 回成功。理論上の成功確率は 0.5 と仮定
binom.test(45, 80, p = 0.5)

## 5. 分散分析（ANOVA）

3群以上の平均の差を一度に比較するときに用います。

In [None]:
set.seed(101)

group3 <- factor(rep(c("A", "B", "C"), each = 20))
score3 <- c(
  rnorm(20, mean = 70, sd = 8),
  rnorm(20, mean = 75, sd = 8),
  rnorm(20, mean = 80, sd = 8)
)

dat3 <- data.frame(group3 = group3, score3 = score3)

# 1要因分散分析
fit_aov <- aov(score3 ~ group3, data = dat3)
summary(fit_aov)

## 6. 相関分析（cor.test）

2つの量的変数の線形関係の強さをみる統計量（相関係数）を推定し、その有意性を検定します。

In [None]:
set.seed(202)

x <- rnorm(50)
y <- x + rnorm(50, sd = 0.5)

# 相関係数と検定
cor.test(x, y)

## 7. 回帰分析（lm）

ここでは単回帰分析の例を示します。

In [None]:
# 単回帰分析（y を x から説明）
fit_lm <- lm(y ~ x)
summary(fit_lm)

### 7-1. ロジスティック回帰（glm, family = binomial）

説明変数から 0/1 の目的変数を予測する場合に使います。

In [None]:
set.seed(303)

x2 <- rnorm(100)
p  <- 1 / (1 + exp(-x2))  # ロジスティック関数
y2 <- rbinom(100, size = 1, prob = p)

fit_logit <- glm(y2 ~ x2, family = binomial)
summary(fit_logit)

## 8. 考察（演習）

ここまでで学んだ統計テスト（t検定、χ²検定、分散分析、相関・回帰など）を用いて、
自分でデータを生成したり、与えられたデータを分析してみましょう。

例：

- グループ数や平均値・標準偏差を変えて再実行する
- サンプルサイズを変えて、p値がどのように変化するかを観察する
- ロジスティック回帰の説明変数を 2 つ以上に増やしてみる

分析の結果について、簡単なコメントを書いておくと復習に役立ちます。