# 推定量の評価基準/Criteria for Evaluating Estimators

以下のような例を元に「母分散の推定」を考える。

例：
ある工場で生産される部品の大きさは，平均100mm，標準偏差が4mmの正規分布に従うことが知られている．

新しい機械を導入したので，その性能をチェックしたい．

## 一致推定量/Consistent Estimator

一致性を持つ推定量：「一致推定量」

一致性とは
「ある母数に対する推定量が，サンプルサイズを大きくすれば推定したい母数に近づく（一致する）という性質」
"


**標本分散/Sample Variance**

標本分散は以下の式で計算される。

$$\frac{1}{n} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

例えば、10個のデータが与えられたときの標本分散を計算してみましょう。


In [None]:
# Parameters for the normal distribution
mean = 100  # mean
std_dev = 4  # standard deviation
sample_size = 10  # number of samples

# Generate 10 random samples from the normal distribution
np.random.seed(1)  # Set a seed for reproducibility
random_samples = np.random.normal(mean, std_dev, sample_size)
random_samples


In [None]:
sample_variance = np.var(random_samples, ddof=0)  # ddof=0 for sample variance
sample_variance

このとき、numpyでは「ddof」が以下のように定義されているため、「ddpf = 0」とすることで、標本分散が計算できます。

numpyは以下のリンクにもあるように、デフォルトは「ddpf = 0」のため、標本分散が計算されます。

pandasのライブラリの場合、numpyの「ddof = 1」となる不偏分散がデフォルトになっているので注意してください。



$$\frac{1}{n - {\rm ddof}} \sum_{i=1}^{n} (x_i - \bar{x})^2$$

https://numpy.org/doc/stable/reference/generated/numpy.var.html

In [None]:
#sample variance
np.var(random_samples, ddof=0)

In [None]:
#sample variance
np.var(random_samples)

In [None]:
#unbiased variance
np.var(random_samples, ddof=1)

サンプルが20個、30個と増えた場合の標本分散を計算してみましょう。


In [None]:
sample_size = 30  # number of samples

# Generate random samples from the normal distribution
np.random.seed(1)  # Set a seed for reproducibility
random_samples = np.random.normal(mean, std_dev, sample_size)
random_samples

In [None]:
print('10 random samples:',np.var(random_samples[:10], ddof=0))
print('20 random samples:',np.var(random_samples[:20], ddof=0))
print('30 random samples:',np.var(random_samples, ddof=0))

サンプルサイズを1万個として一致推定量の意味を可視化してみましょう。

In [None]:
# Generate 10,000 random samples from the normal distribution
sample_size_large = 10000
np.random.seed(1)
random_samples_large = np.random.normal(mean, std_dev, sample_size_large)

# Calculate sample variances in increments of 100
sample_sizes = np.arange(100, sample_size_large + 1, 100)
sample_variances = [np.var(random_samples_large[:i], ddof=0) for i in sample_sizes]

# Plot the sample variances
plt.figure(figsize=(10, 6))
plt.plot(sample_sizes, sample_variances, label="Sample Variance")
plt.axhline(y=std_dev**2, color='r', linestyle='--', label="True Variance (16)")
plt.xlabel("Sample Size")
plt.ylabel("Sample Variance")
plt.title("Sample Variance vs. Sample Size")
plt.legend()
plt.grid(True)
plt.show()


## 不偏推定量/Unbiased Estimator

不偏性を持つ推定量：「不偏推定量」

不偏性とは
「ある母数に対する推定量の期待値が，推定したい母数と等しいという性質」

### 標本分散/Sample Variance

10個ランダムにサンプリングして母分散を推定することを3回繰り返してみましょう。

In [None]:
# Parameters for the normal distribution
mean = 100  # mean
std_dev = 4  # standard deviation
sample_size = 10  # number of samples

# Generate 10 random samples from the normal distribution
np.random.seed(1)  # Set a seed for reproducibility

for i in range(3):
    random_samples = np.random.normal(mean, std_dev, sample_size)
    sample_variance = np.var(random_samples, ddof=0)
    print(f"Sample Variance {i+1}:", sample_variance)

10万回繰り返してそのヒストグラムを見てみましょう。

In [None]:
# Parameters for the normal distribution
mean = 100  # mean
std_dev = 4  # standard deviation
sample_size = 10  # number of samples
num_iterations = 100000  # Number of iterations

# Initialize an array to store sample variances
sample_variances = []

np.random.seed(1)
# Generate random samples and calculate sample variances for each iteration
for _ in range(num_iterations):
    random_samples = np.random.normal(mean, std_dev, sample_size)
    sample_variance = np.var(random_samples, ddof=0)
    sample_variances.append(sample_variance)

# Calculate the average of sample variances
average_variance = np.mean(sample_variances)

# Plot the histogram
plt.figure(figsize=(10, 6))
plt.hist(sample_variances, bins=50)
plt.axvline(x=average_variance, color='r', linestyle='--', label=f"Average Variance: {average_variance:.2f}")

# Add labels and title
plt.xlabel("Sample Variance")
plt.ylabel("Frequency")
plt.title("Histogram of Sample Variances")
plt.legend()
plt.grid(True)
plt.show()


この結果より標本分散は不偏推定量ではないことが分かります。

### 不偏分散/Unbiased variance

10個ランダムにサンプリングして母分散を推定することを3回繰り返してみましょう。

In [None]:
# Parameters for the normal distribution
mean = 100  # mean
std_dev = 4  # standard deviation
sample_size = 10  # number of samples

# Generate 10 random samples from the normal distribution
np.random.seed(1)  # Set a seed for reproducibility

for i in range(3):
    random_samples = np.random.normal(mean, std_dev, sample_size)
    sample_variance = np.var(random_samples, ddof=0)
    unbiased_variance = np.var(random_samples, ddof=1)
    print(f"Sample Variance {i+1}:", sample_variance,f"Unbiased Variance {i+1}:", unbiased_variance)

10万回繰り返してそのヒストグラムを見てみましょう。

In [None]:
# Parameters for the normal distribution
mean = 100  # mean
std_dev = 4  # standard deviation
sample_size = 10  # number of samples
num_iterations = 100000  # Number of iterations

# Initialize an array to store sample variances
unbiased_variances = []

np.random.seed(1)
# Generate random samples and calculate unbised variances for each iteration
for _ in range(num_iterations):
    random_samples = np.random.normal(mean, std_dev, sample_size)
    unbiased_variance = np.var(random_samples, ddof=1)
    unbiased_variances.append(unbiased_variance)

# Calculate the average of sample variances
average_variance = np.mean(unbiased_variances)

# Plot the histogram
plt.figure(figsize=(10, 6))
plt.hist(unbiased_variances, bins=50)
plt.axvline(x=average_variance, color='r', linestyle='--', label=f"Average Variance: {average_variance:.2f}")

# Add labels and title
plt.xlabel("Unbiased Variance")
plt.ylabel("Frequency")
plt.title("Histogram of Unbiased Variances")
plt.legend()
plt.grid(True)
plt.show()


この結果より不偏分散は不偏推定量であると分かります。