In [9]:
import numpy as np
import matplotlib.pyplot as plt
from statsmodels.distributions.empirical_distribution import ECDF
from scipy.stats import norm, binom
np.set_printoptions(precision=3)

# Домашнее задание 3. Оценки.

### Семенов Игорь, СКБ 172

## 3.1 Нахождение выборочного среднего и выборочной дисперсии

In [10]:
# Сгенирируем выборки из ДЗ 2
size = {
    0: 5,
    1: 10,
    2: 100,
    3: 1000,
    4: 100000
}
normRandom = []
binRandom = []
for i in range(5):
    binRandom.append([])
    normRandom.append([])
    for _ in range(5):
        binRandom[i].append(np.random.binomial(10, 0.5, size[i]))
        normRandom[i].append(np.random.normal(2, 2, size[i]))
        

Интересующую нас выборку можно вызвать командой $\texttt{binRandom[i][j]}$ или $\texttt{normRandom[i][j]}$, где $i,j \in [0;4]$, $i$ — размер выборки, $j$ — номер выборки $i$-го размера

### 3.1.1 Выборочное среднее значение 

Пусть $X_{1}, \dots, X_{n}$ — выборка из распределения вероятности. Тогда её выборочным средним называется случайная величина $$
\bar{X}=\frac{1}{n} \sum_{i=1}^{n} X_{i}
$$
Выборочное среднее -  это оценка теоретического среднего распределения, основанная на выборке из него.


Свойства:
- Выборочное среднее — несмещенная оценка теоретического среднего:$\mathbb{E} \left[{\bar {X}}\right]=\mathbb{E} [X_{i}],\quad$ $i=1,\ldots ,n$
- Выборочное среднее — сильно состоятельная оценка теоретического среднего:$ {\bar {X}}\to \mathbb {E} [X_{i}]$ почти наверное при $ n\to \infty$ .
- Выборочное среднее из нормальной выборки — эффективная оценка её среднего.

### 3.1.2 Выборочная дисперсия

Пусть $X_{1},\ldots ,X_{n},\ldots$  — выборка из распределения вероятности. Тогда выборочная дисперсия — это случайная величина
$$
S_{n}^{2}=\frac{1}{n} \sum_{i=1}^{n}\left(X_{i}-\bar{X}\right)^{2}
$$
Выборочная дисперсия - это оценка теоретической дисперсии распределения, рассчитанная на основе данных выборки. 

### 3.1.3 Поиск выборочных среднего значения и дисперсии

#### 3.1.3.1 Биномиальное распределение $Bi(10,\frac{1}{2})$

In [17]:
binAver = np.zeros((5,5))
binVar = np.zeros((5,5))
for i in range(5):
    for j in range(5):
        binAver[i,j]=binRandom[i][j].mean()
        binVar[i,j]=np.var(binRandom[i][j])
print("Выборочные средние значения:\n", binAver)
print("Математическое ожидание: np =",10*0.5,'\n')
print("Выборочные дисперсии\n",binVar)
print("Дисперсия: np(p-1) =",10*0.5*0.5) 

Выборочные средние значения:
 [[5.2   4.6   5.6   6.6   5.2  ]
 [5.2   4.1   4.5   4.4   4.4  ]
 [4.94  5.04  5.08  5.37  5.16 ]
 [5.032 5.013 5.002 4.976 5.034]
 [4.995 5.001 5.004 5.003 4.999]]
Математическое ожидание: np = 5.0 

Выборочные дисперсии
 [[2.16  1.44  1.44  1.04  0.16 ]
 [2.56  2.09  1.45  3.44  1.84 ]
 [2.756 2.378 2.314 2.213 2.514]
 [2.553 2.449 2.448 2.395 2.525]
 [2.509 2.5   2.502 2.502 2.486]]
Дисперсия: np(p-1) = 2.5


#### 3.1.3.2 Нормальное распределение $N(2,4)$

In [18]:
normAver = np.zeros((5,5))
normVar = np.zeros((5,5))
for i in range(5):
    for j in range(5):
        normAver[i,j]=normRandom[i][j].mean()
        normVar[i,j]=np.var(normRandom[i][j])
print("Выборочные средние значения:\n", normAver)
print("Математическое ожидание: μ =",2,'\n')
print("Выборочные дисперсии\n", normVar)
print("Дисперсия: σ² =",2**2) 

Выборочные средние значения:
 [[1.109 1.191 2.558 0.459 1.244]
 [2.567 1.826 2.062 2.104 1.744]
 [2.262 1.796 2.12  1.979 1.93 ]
 [1.925 1.963 2.114 2.067 2.118]
 [1.995 2.001 2.002 1.996 2.005]]
Математическое ожидание: μ = 2 

Выборочные дисперсии
 [[ 2.376 10.727  2.826  3.958  1.281]
 [ 2.519  2.83   7.546  1.415  4.579]
 [ 3.911  3.871  3.479  4.664  4.035]
 [ 3.743  4.118  4.051  4.057  4.058]
 [ 3.99   4.036  4.016  4.005  4.034]]
Дисперсия: σ² = 4


Точность выборочных параметров зависит от объема выборки, чем больше объем выборки, тем точнее оценка, что собственно и наблюдается на примерах

## 3.2 Нахождение параметров распределений событий

### 3.2.1 Нахождение оценки максимального правдоподобия

#### 3.2.1.1 Биномиальное распределение

Найдем оценку параметра p

$$
P_{\theta}(\xi=x) = \frac{m !}{(m-x !) x !} \theta^{x}(1-\theta)^{m-x}
\\L_{\theta}(X) =\prod_{i=1}^{n} P_{\theta}\left(\xi=X_{i}\right)
\\ \ln L_{\theta}(X) =\sum_{i=1}^{n} \ln P_{\theta}\left(\xi=X_{i}\right)=
 \sum_{i=1}^{n}\left(\ln \frac{m !}{X_i! \cdot(m-X_i) !}+\ln \theta^{X_{i}}+\ln (1-\theta)^{m-X_i}\right)
\\ \frac{\partial \ln L_{\theta}(X)}{\partial \theta} =\sum_{i=1}^{n}( \frac{X_i}{\theta}-\frac{m-X_i}{1-\theta})
\\ \sum_{i=1}^{n}( \frac{X_i}{\theta}-\frac{m-X_i}{1-\theta}) = 0
\\\sum_{i=1}^{n} \frac{X_i - \theta X_i - m\theta + \theta X_i}{\theta-\theta^2}=0
\\ \hat\theta = \frac{\sum_{i=1}^{n} X_i }{mn} 
$$



In [28]:
print("Оценка параметра p\n", binAver/10)
print("Параметр p = 0.5")

Оценка параметра p
 [[0.52  0.46  0.56  0.66  0.52 ]
 [0.52  0.41  0.45  0.44  0.44 ]
 [0.494 0.504 0.508 0.537 0.516]
 [0.503 0.501 0.5   0.498 0.503]
 [0.5   0.5   0.5   0.5   0.5  ]]
Параметр p = 0.5


#### 3.2.1.2 Нормальное распределение

Найдем оценку параметра $\mu$

$$
f_\theta(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\theta)^{2}}{2 \sigma^{2}}}
\\L_{\theta}(X) =\prod_{i=1}^{n} f_\theta(X_i)
\\ \ln L_{\theta}(X) =\sum_{i=1}^{n}\ln f_\theta(X_i)=
\sum_{i=1}^{n}(-\ln(\sigma \sqrt{2 \pi}) -\frac{(X_i-\theta)^{2}}{2 \sigma^{2}}\ln {e}) 
\\ \frac{\partial \ln L_{\theta}(X)}{\partial \theta} =\sum_{i=1}^{n}\frac{2(X_i-\theta)}{2 \sigma^{2}}
\\ \sum_{i=1}^{n}\frac{(X_i-\theta)}{\sigma^{2}} = 0
\\ \hat{\theta} = \frac{\sum_{i=1}^{n} X_i}{n} 
$$


In [26]:
print("Оценка параметра μ\n", normAver)
print("Параметр μ = 2")

Оценка параметра μ
 [[1.109 1.191 2.558 0.459 1.244]
 [2.567 1.826 2.062 2.104 1.744]
 [2.262 1.796 2.12  1.979 1.93 ]
 [1.925 1.963 2.114 2.067 2.118]
 [1.995 2.001 2.002 1.996 2.005]]
Параметр μ = 2


Точность оценки зависит от объема выборки, чем больше объем выборки, тем точнее оценка, аналогично результатам из первого пункта

### 3.2.2 Несмещенная оценка

Несмещённая оценка — это точечная оценка, математическое ожидание которой равно оцениваемому параметру.
$${E}(\hat  {\theta })=\theta $$

#### 3.2.2.1 Биномиальное распределение

$$
{E}(\hat  {\theta })= E(\frac{\sum_{i=1}^{n} X_i }{nm}) = \frac{\sum_{i=1}^{n} E(X_i) }{nm} = \frac{\sum_{i=1}^{n} m\theta }{nm} = \theta
$$
Предложенная оценка является несмещенной

#### 3.2.2.2 Нормальное распределение

$$
{E}(\hat  {\theta })= E(\frac{\sum_{i=1}^{n} X_i }{n}) = \frac{\sum_{i=1}^{n} E(X_i) }{n} = \frac{\sum_{i=1}^{n} \theta }{n} = \theta
$$
Предложенная оценка является несмещенной

### 3.2.3 Состоятельная оценка

Состоятельная оценка — это точечная оценка, сходящаяся по вероятности к оцениваемому параметру.
$$
{\hat  {\theta }}\to \theta,\quad n\to \infty\\
\forall \varepsilon > 0,\; \lim\limits_{n \to \infty} \mathbb{P}(|\hat  {\theta } - \theta| > \varepsilon) = 0
$$
$\hat\theta(X)$ явлется состоятельной оценкой, если:
   - $\hat\theta(X)$ — несмещенная оценка
   - $\lim\limits_{n \to \infty} \mathbb{D}\hat\theta=0$


#### 3.2.3.1 Биномиальное распределение

$\hat\theta(X)$ — несмещенная оценка

$$
\lim\limits_{n \to \infty} \mathbb{D}(\frac{\sum_{i=1}^{n} X_i }{nm}) = \lim\limits_{n \to \infty} \frac{\sum_{i=1}^{n} \mathbb{D} (X_i) }{(nm)^2} = \lim\limits_{n \to \infty} \frac{\sum_{i=1}^{n} m\theta(1-\theta) }{(nm)^2} =
\lim\limits_{n \to \infty} \frac{ \theta(1-\theta) }{nm} = 0
$$

Предложенная оценка является состоятельной

#### 3.2.3.2 Нормальное распределение

$\hat\theta(X)$ — несмещенная оценка

$$
\lim\limits_{n \to \infty} \mathbb{D}(\frac{\sum_{i=1}^{n} X_i }{n}) = \lim\limits_{n \to \infty} \frac{\sum_{i=1}^{n} \mathbb{D} (X_i) }{n^2} = \lim\limits_{n \to \infty} \frac{\sum_{i=1}^{n} \sigma^2 }{n^2} =
\lim\limits_{n \to \infty} \frac{ \sigma^2}{n} = 0
$$

Предложенная оценка является состоятельной

### 3.2.4 Эффективаня оценка

$\hat\theta(X)$ явлется эффективной оценкой, если существует такая функция $a_n$, что 
$$
\hat\theta(X) - \theta = a_n(\theta)\frac{\partial \ln L_{\theta}(X)}{\partial \theta}  .
$$

#### 3.2.4.1 Биномиальное распределение

$$
\frac{\sum_{i=1}^{n} X_i }{mn} - \theta = a_n(\theta)\sum_{i=1}^{n} \frac{X_i - m\theta }{\theta-\theta^2}\\
\frac{\sum_{i=1}^{n} X_i }{mn} - \theta = a_n(\theta) \frac{\sum_{i=1}^{n}X_i - nm\theta }{n(\theta-\theta^2)}\\
\frac{1 }{mn} = a_n(\theta) \frac{1}{n(\theta-\theta^2)}\\
a_n(\theta)= \frac{m}{\theta-\theta^2} 
$$

Функция существует, следовательно, предложенная оценка является эффективной и оптимальной

#### 3.2.4.2 Нормальное распределение

$$
\frac{\sum_{i=1}^{n} X_i }{n} - \theta = a_n(\theta)\sum_{i=1}^{n} \frac{X_i - \theta }{\sigma^2}\\
\frac{\sum_{i=1}^{n} X_i - n\theta}{n}  = a_n(\theta) \frac{\sum_{i=1}^{n}X_i - n\theta }{n\sigma^2}\\
a_n(\theta)= \sigma^2
$$

Функция существует, следовательно, предложенная оценка является эффективной и оптимальной