## 統計用語の勉強

## 不偏性とは
とある推定値が同じ観測数で何度も何度も繰り返し、その平均をとっていくと、真の母数に近づくことを示す。

## 一致性とは
とある推定値が一回の推定でも、でその観測数を大きくすれば、真の母数に近づくことを示す。



標本値を$\{X\}_{i=1}^N$とするとき、標本平均値を$\bar{X}$とすると、標本分散は以下で定義される。
$$
\frac{1}{N} \sum_{i=1}^{N} (X_i - \bar{X})^2
$$


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns

## 標本分散の一致性の確認

In [None]:
np.random.seed(42)

KMAX = 1000

mu = 10
std = 5

v = pd.DataFrame(columns=['x', 'v'])

for k in range(1, KMAX):
    r = np.random.normal(mu, std, k)
    v = np.var(r, ddof=0)
    s = pd.Series([k, v], index=['x', 'v'])
    v = dfv.append(s, ignore_index=True)
plt.figure(figsize=(10, 3.5))
plt.axhline(25, ls = '--', color = 'red', label = True)
sns.lineplot(data=v, x='x', y='v')
plt.show()



## 標本分散に不偏性がないことの確認

In [None]:
np.random.seed(42)

NMAX = 200
K = 1000

mu = 10
std = 5

ev = []
x = []
g = pd.DataFrame(columns=['x', 'ev', 'bias'])
for n in range(10, NMAX):
    v = []
    for i in range(K):
        r = np.random.normal(mu, std, n)
        v.append(np.var(r, ddof = 0)) # ddof=0で標本分散
    ev = np.mean(v)
    bias = 25 -1 / n * 25
    s = pd.Series([n, ev, bias], index=['x', 'ev', 'bias'])
    g = g.append(s, ignore_index=True)

plt.figure(figsize=(10, 3.5))
plt.axhline(25, ls = '--', color = 'red', label = True)
sns.lineplot(data=g, x='x', y='ev')
sns.lineplot(data=g, x='x', y='bias')
plt.show()

実際に標本分散の平均を計算すると
$$
E[\frac{1}{N} \sum_{i=1}^{N} (X_i - \bar{X})^2] = \frac{N-1}{N}\sigma^2 \\
= \sigma^2 - \frac{1}{N} \sigma^2
$$

In [None]:
x = np.random.normal(10, 5, 10)
print(x)

In [None]:
df = pd.DataFrame({"A": [1, 2, 3], "B": [1, 2, 3]})
df

In [None]:
df2 = pd.DataFrame({"A": [4, 5, 6], "B": [4, 5, 6]})
ret = df.append(df2, ignore_index=True)
ret