# 1 生態学のデータと統計学

## 1.1 なぜ統計学が必要か？

## 1.2 確率と統計量

- ホエールウォッチング（5日間）の発見個体数

In [7]:
# Combine Values into a Vector or List
whale <- c(20,0,5,10,15)
print(whale)

[1] 20  0  5 10 15


- 要約統計量としての『**平均値**』（確率変数の代表値の一つ）

In [9]:
# 平均
sum(whale)/length(whale)

- 算術平均の関数

In [10]:
# Generic function for the (trimmed) arithmetic mean.
mean(whale)

- 別の代表値としての『**中央値**』

In [19]:
whale2 <- c(20,0,5,10,1500)
cat(sprintf("平均値: %.2f, %.2f\n", mean(whale), mean(whale2)))
cat(sprintf("中央値: %.2f, %.2f\n", median(whale), median(whale2)))

平均値: 10.00, 307.00
中央値: 10.00, 10.00


- 用語の整理

- 『**確率変数**』の例  
   コイン投げ：  
   標本空間 $\Omega = \{\text{表}, \text{裏}\}$  
   確率変数$X$を「表なら1、裏なら0」と定義すると  
   $X(\text{表}) = 1, \quad X(\text{裏}) = 0$  
   これで$X$は $\Omega \to \mathbb{R}$ の関数である。

- 確率空間・確率変数・確率分布について
  $$
  \begin{array}{ccc}
  \text{標本空間 } \Omega & \longrightarrow & \text{確率変数 } X \longrightarrow \text{確率分布 } P(X) \\
  \hline
  \text{表} & \mapsto & 1 & \mapsto & P(X=1) = 0.5 \\
  \text{裏} & \mapsto & 0 & \mapsto & P(X=0) = 0.5 \\
  \end{array}
  $$

  1. 確率変数によって得られる個々の値の名前
     - 確率変数 X がある結果 $\omega \in \Omega$ を受け取り、値 $X(\omega)$ を返す
     - 個々の値 $X(\omega)$ のことは一般に 「**実現値**」 (realization) と呼ぶ  
     - 例：
       - コイン投げで $\omega = \text{表}$ の場合、$X(\omega) = 1$ は X の 実現値
       - 実験を何度も繰り返すと、X の異なる実現値が観測される

  2. なぜ $P(X=1)=0.5$ と書くのか（$P(X(表)=1)=0.5$ と書かないか）
     - 本来は正確には 「X が 1 になる確率」  
     $P(X = 1) = P(\{\omega \in \Omega \mid X(\omega) = 1\})$
     （$\{\omega \in \Omega \mid X(\omega) = 1\}$ は「X が 1 になる事象」）
     - コイン投げの場合、この集合は $\{\text{表}\}$。だから書き換えると：  
     $P(X=1) = P(\{\text{表}\}) = 0.5$
     - つまり、$X(\text{表})=1$ という値は関数（確率変数X）の定義の話で、確率の話では $X=1$ という事象を扱う
     - だから普段は簡略化して $P(X=1)=0.5$ と書く

- 分散を計算

In [20]:
cat(sprintf('分散：%.2f, %.2f', var(whale), var(whale2)))

分散：62.50, 444820.00

- 不偏分散の式に基づいて計算  
$s^2_\text{unbiased} = \frac{1}{n-1} \sum_{i=1}^n (x_i - \bar{x})^2$

In [21]:
1/4 * ((20-10)^2+(0-10)^2+(5-10)^2+(10-10)^2+(15-10)^2)

- 序でに、R関数の定義の仕方を試す

In [22]:
# 母分散 / 不偏分散 の両方を計算できる関数
my_var <- function(x, unbiased = TRUE) {
  n <- length(x)
  mean_x <- mean(x)
  ss <- sum((x - mean_x)^2)  # 偏差平方和
  
  if (unbiased) {
    return(ss / (n - 1))  # 不偏分散
  } else {
    return(ss / n)        # 母分散（標本分散）
  }
}

In [24]:
my_var(whale,unbiased = TRUE)
my_var(whale, unbiased = FALSE)

In [25]:
my_var(whale2)
my_var(whale2, unbiased = FALSE)