# 第2章: Probability Theory（確率論）練習問題

この章では確率変数、確率分布、標本平均の分布について学びます。

---
## 問題1: 離散確率変数

サイコロを1回振ったときの出目をXとします。

1. Xの期待値 E(X) を計算してください
2. Xの分散 Var(X) を計算してください
3. Rでシミュレーション（10000回）を行い、理論値と比較してください

In [None]:
# 問題1の解答欄



### 模範解答

In [None]:
# 模範解答
# 理論値の計算
x <- 1:6
prob <- rep(1/6, 6)

# 期待値 E(X) = Σ x * P(X=x)
expected_value <- sum(x * prob)
cat("理論上の期待値 E(X) =", expected_value, "\n")

# 分散 Var(X) = E(X^2) - [E(X)]^2
expected_x_squared <- sum(x^2 * prob)
variance <- expected_x_squared - expected_value^2
cat("理論上の分散 Var(X) =", variance, "\n\n")

# シミュレーション
set.seed(123)
n_simulations <- 10000
dice_rolls <- sample(1:6, n_simulations, replace = TRUE)

cat("シミュレーションによる平均 =", mean(dice_rolls), "\n")
cat("シミュレーションによる分散 =", var(dice_rolls), "\n")

---
## 問題2: ベルヌーイ分布

成功確率 p = 0.3 のベルヌーイ試行について、

1. 期待値と分散を理論的に計算してください
2. rbinom関数を使って10000回のシミュレーションを行い、結果を確認してください

In [None]:
# 問題2の解答欄



### 模範解答

In [None]:
# 模範解答
p <- 0.3

# 理論値
# E(X) = p
expected_bernoulli <- p
cat("理論上の期待値 E(X) =", expected_bernoulli, "\n")

# Var(X) = p(1-p)
variance_bernoulli <- p * (1 - p)
cat("理論上の分散 Var(X) =", variance_bernoulli, "\n\n")

# シミュレーション
set.seed(123)
bernoulli_samples <- rbinom(10000, size = 1, prob = p)

cat("シミュレーションによる平均 =", mean(bernoulli_samples), "\n")
cat("シミュレーションによる分散 =", var(bernoulli_samples), "\n")

---
## 問題3: 正規分布

平均 μ = 100、標準偏差 σ = 15 の正規分布について、

1. X < 85 となる確率を計算してください
2. X > 130 となる確率を計算してください
3. 85 < X < 115 となる確率を計算してください
4. この分布の95パーセンタイル点を求めてください

In [None]:
# 問題3の解答欄



### 模範解答

In [None]:
# 模範解答
mu <- 100
sigma <- 15

# 1. P(X < 85)
prob_less_85 <- pnorm(85, mean = mu, sd = sigma)
cat("P(X < 85) =", prob_less_85, "\n")

# 2. P(X > 130)
prob_greater_130 <- 1 - pnorm(130, mean = mu, sd = sigma)
cat("P(X > 130) =", prob_greater_130, "\n")

# 3. P(85 < X < 115)
prob_between <- pnorm(115, mean = mu, sd = sigma) - pnorm(85, mean = mu, sd = sigma)
cat("P(85 < X < 115) =", prob_between, "\n")

# 4. 95パーセンタイル点
percentile_95 <- qnorm(0.95, mean = mu, sd = sigma)
cat("95パーセンタイル点 =", percentile_95, "\n")

---
## 問題4: 正規分布の乱数生成とヒストグラム

平均 μ = 50、標準偏差 σ = 10 の正規分布から1000個の乱数を生成し、

1. ヒストグラムを描画してください
2. 理論的な密度曲線を重ねて描画してください

In [None]:
# 問題4の解答欄



### 模範解答

In [None]:
# 模範解答
set.seed(123)
mu <- 50
sigma <- 10
n <- 1000

# 乱数生成
random_samples <- rnorm(n, mean = mu, sd = sigma)

# ヒストグラムと密度曲線
hist(random_samples, 
     breaks = 30, 
     freq = FALSE,
     main = "正規分布 N(50, 10^2) のヒストグラム",
     xlab = "値",
     ylab = "密度",
     col = "lightblue")

# 理論的な密度曲線を追加
curve(dnorm(x, mean = mu, sd = sigma), 
      add = TRUE, 
      col = "red", 
      lwd = 2)

---
## 問題5: カイ二乗分布

自由度 k = 5 のカイ二乗分布について、

1. 期待値と分散を理論的に求めてください（E(X) = k, Var(X) = 2k）
2. P(X > 11.07) を計算してください
3. 上側5%点を求めてください

In [None]:
# 問題5の解答欄



### 模範解答

In [None]:
# 模範解答
k <- 5

# 1. 理論値
expected_chi2 <- k
variance_chi2 <- 2 * k
cat("期待値 E(X) =", expected_chi2, "\n")
cat("分散 Var(X) =", variance_chi2, "\n\n")

# 2. P(X > 11.07)
prob_greater <- 1 - pchisq(11.07, df = k)
cat("P(X > 11.07) =", prob_greater, "\n")

# 3. 上側5%点
upper_5_percent <- qchisq(0.95, df = k)
cat("上側5%点 =", upper_5_percent, "\n")

---
## 問題6: t分布

自由度 df = 10 のt分布について、

1. 両側5%の臨界値を求めてください
2. |T| > 2.5 となる確率を計算してください
3. t分布と標準正規分布の密度曲線を同じグラフに描画し、比較してください

In [None]:
# 問題6の解答欄



### 模範解答

In [None]:
# 模範解答
df <- 10

# 1. 両側5%の臨界値
critical_value <- qt(0.975, df = df)
cat("両側5%の臨界値: ±", critical_value, "\n")

# 2. P(|T| > 2.5)
prob_abs_greater <- 2 * (1 - pt(2.5, df = df))
cat("P(|T| > 2.5) =", prob_abs_greater, "\n")

# 3. t分布と標準正規分布の比較
x_vals <- seq(-4, 4, length.out = 100)
plot(x_vals, dnorm(x_vals), type = "l", 
     col = "blue", lwd = 2,
     main = "t分布と標準正規分布の比較",
     xlab = "x", ylab = "密度")
lines(x_vals, dt(x_vals, df = df), col = "red", lwd = 2, lty = 2)
legend("topright", 
       legend = c("標準正規分布", paste("t分布 (df =", df, ")")),
       col = c("blue", "red"), 
       lty = c(1, 2), 
       lwd = 2)

---
## 問題7: F分布

自由度 (df1 = 3, df2 = 20) のF分布について、

1. P(F < 3.10) を計算してください
2. 上側5%点を求めてください
3. F分布の密度曲線を描画してください

In [None]:
# 問題7の解答欄



### 模範解答

In [None]:
# 模範解答
df1 <- 3
df2 <- 20

# 1. P(F < 3.10)
prob_less_3.10 <- pf(3.10, df1 = df1, df2 = df2)
cat("P(F < 3.10) =", prob_less_3.10, "\n")

# 2. 上側5%点
upper_5_percent_f <- qf(0.95, df1 = df1, df2 = df2)
cat("上側5%点 =", upper_5_percent_f, "\n")

# 3. F分布の密度曲線
x_vals <- seq(0, 6, length.out = 100)
plot(x_vals, df(x_vals, df1 = df1, df2 = df2), type = "l",
     col = "blue", lwd = 2,
     main = paste("F分布 (df1 =", df1, ", df2 =", df2, ")"),
     xlab = "x", ylab = "密度")

# 上側5%点に縦線を追加
abline(v = upper_5_percent_f, col = "red", lty = 2)

---
## 問題8: 標本平均の分布

母集団が平均 μ = 100、標準偏差 σ = 20 の正規分布に従うとき、
サンプルサイズ n = 25 の標本平均 X̄ について、

1. X̄ の期待値と標準誤差を理論的に求めてください
2. P(X̄ < 95) を計算してください
3. シミュレーション（1000回の標本抽出）で確認してください

In [None]:
# 問題8の解答欄



### 模範解答

In [None]:
# 模範解答
mu <- 100
sigma <- 20
n <- 25

# 1. 理論値
expected_xbar <- mu
se_xbar <- sigma / sqrt(n)  # 標準誤差
cat("E(X̄) =", expected_xbar, "\n")
cat("SE(X̄) = σ/√n =", se_xbar, "\n\n")

# 2. P(X̄ < 95)
prob_xbar_less_95 <- pnorm(95, mean = mu, sd = se_xbar)
cat("理論上の P(X̄ < 95) =", prob_xbar_less_95, "\n\n")

# 3. シミュレーション
set.seed(123)
n_simulations <- 1000
sample_means <- replicate(n_simulations, mean(rnorm(n, mean = mu, sd = sigma)))

cat("シミュレーションによる平均 =", mean(sample_means), "\n")
cat("シミュレーションによる標準誤差 =", sd(sample_means), "\n")
cat("シミュレーションによる P(X̄ < 95) =", mean(sample_means < 95), "\n")

---
## 問題9: 中心極限定理

一様分布 U(0, 1) から標本を抽出します。

1. サンプルサイズ n = 1, 5, 30, 100 のそれぞれについて、10000回の標本平均を計算
2. 各サンプルサイズでのヒストグラムを描画し、中心極限定理を視覚的に確認してください

In [None]:
# 問題9の解答欄



### 模範解答

In [None]:
# 模範解答
set.seed(123)
n_simulations <- 10000
sample_sizes <- c(1, 5, 30, 100)

# 2x2のグラフ配置
par(mfrow = c(2, 2))

for (n in sample_sizes) {
  sample_means <- replicate(n_simulations, mean(runif(n)))
  
  hist(sample_means, 
       breaks = 40, 
       freq = FALSE,
       main = paste("n =", n),
       xlab = "標本平均",
       xlim = c(0, 1),
       col = "lightblue")
  
  # 理論的な正規分布曲線を追加（n > 1の場合）
  if (n > 1) {
    mu_uniform <- 0.5
    sigma_uniform <- 1/sqrt(12)
    se <- sigma_uniform / sqrt(n)
    curve(dnorm(x, mean = mu_uniform, sd = se), 
          add = TRUE, col = "red", lwd = 2)
  }
}

par(mfrow = c(1, 1))

---
## 問題10: 共分散と相関係数

以下のデータを使って、共分散と相関係数を計算してください。

```r
X <- c(2, 4, 6, 8, 10)
Y <- c(3, 5, 4, 8, 9)
```

1. 手計算で共分散と相関係数を求める式を確認し、Rで計算
2. cov() と cor() 関数を使って確認
3. 散布図を描画してください

In [None]:
# 問題10の解答欄



### 模範解答

In [None]:
# 模範解答
X <- c(2, 4, 6, 8, 10)
Y <- c(3, 5, 4, 8, 9)

# 1. 手計算による方法
n <- length(X)
mean_X <- mean(X)
mean_Y <- mean(Y)

# 共分散 (標本共分散)
cov_manual <- sum((X - mean_X) * (Y - mean_Y)) / (n - 1)
cat("手計算による共分散 =", cov_manual, "\n")

# 相関係数
sd_X <- sd(X)
sd_Y <- sd(Y)
cor_manual <- cov_manual / (sd_X * sd_Y)
cat("手計算による相関係数 =", cor_manual, "\n\n")

# 2. 関数による計算
cat("cov関数による共分散 =", cov(X, Y), "\n")
cat("cor関数による相関係数 =", cor(X, Y), "\n")

# 3. 散布図
plot(X, Y, 
     main = paste("散布図 (相関係数 r =", round(cor(X, Y), 3), ")"),
     xlab = "X", ylab = "Y",
     pch = 19, col = "blue")
abline(lm(Y ~ X), col = "red", lwd = 2)