In [10]:
import numpy as np
import seaborn as sns
import numpy.random as rd
import matplotlib.pyplot as plt
import math
from IPython.display import display, Math
import scipy.stats as st
from scipy.stats import poisson
import plotly.express as px

$\overline X $ является состоятельной оценкой параметра $\lambda$. Поэтому $\theta^\ast$ сходится по вероятности к  $\theta = \lambda e^{-\lambda}$.
Данная оценка является является смещенной, но ассимптотически не смещенной, что можно проверить аналитически. Чтобы продемонстрировать сходимость, я взяла три разных параметра $\lambda$ = {1, 5, 9} и посчитала для них $\theta^\ast$ для разных значений n. На данных графиках, мы можем видеть, что отклонение $(\theta^\ast - \theta)^2$ оценки от неизвестного параметра $\theta $ убывает с ростом выборки. А значит $\theta^\ast$ является состоятельной оценкой для параметера $\theta$.

In [11]:
def analyse_theta_covergence(true_lambda):
    true_theta = true_lambda * np.exp(-true_lambda)
    theta_error_sq = []
    n_samples = [10**i for i in range(1, 7)]

    for i in range(1, 7):
        r_mean = np.mean(np.random.poisson(true_lambda, 10**i))
        theta = r_mean * np.exp(-r_mean)

        error = true_theta - theta
        theta_error_sq.append((error)**2)
#         theta_error_sq.append(abs(error))

        print(f"n = {i}, lam:{true_lambda} , X_a:{r_mean:.3f}, theta {true_theta}, theta_star {theta}, diff {true_theta - theta}")
        
    fig = px.line(x=n_samples[1:], y=theta_error_sq[1:], labels=dict(y=r"$(\theta^\ast-\theta)^2$", x="Namber of samples"))
    fig.update_yaxes(type="log", exponentformat ='e')
    fig.update_xaxes(type="log", exponentformat ='none')
    fig.show()

In [12]:
analyse_theta_covergence(true_lambda=1)

n = 1, lam:1 , X_a:0.800, theta 0.36787944117144233, theta_star 0.35946317129377725, diff 0.008416269877665083
n = 2, lam:1 , X_a:0.930, theta 0.36787944117144233, theta_star 0.366934950645589, diff 0.0009444905258533254
n = 3, lam:1 , X_a:0.977, theta 0.36787944117144233, theta_star 0.36778063211509043, diff 9.880905635190063e-05
n = 4, lam:1 , X_a:0.991, theta 0.36787944117144233, theta_star 0.36786575874028, diff 1.3682431162342912e-05
n = 5, lam:1 , X_a:0.997, theta 0.36787944117144233, theta_star 0.3678777153158701, diff 1.725855572232149e-06
n = 6, lam:1 , X_a:1.000, theta 0.36787944117144233, theta_star 0.3678794036031437, diff 3.756829863865718e-08


In [13]:
analyse_theta_covergence(true_lambda=5)

n = 1, lam:5 , X_a:4.600, theta 0.03368973499542734, theta_star 0.04623844442531449, diff -0.012548709429887152
n = 2, lam:5 , X_a:5.260, theta 0.03368973499542734, theta_star 0.027327302820389514, diff 0.006362432175037822
n = 3, lam:5 , X_a:4.986, theta 0.03368973499542734, theta_star 0.034069047157554516, diff -0.00037931216212717944
n = 4, lam:5 , X_a:4.984, theta 0.03368973499542734, theta_star 0.03412356019295902, diff -0.00043382519753168425
n = 5, lam:5 , X_a:4.990, theta 0.03368973499542734, theta_star 0.03396977117316298, diff -0.00028003617773564304
n = 6, lam:5 , X_a:5.003, theta 0.03368973499542734, theta_star 0.033601038504753475, diff 8.869649067386187e-05


In [14]:
analyse_theta_covergence(true_lambda=9)

n = 1, lam:9 , X_a:8.400, theta 0.001110688236780116, theta_star 0.001888885523102325, diff -0.000778197286322209
n = 2, lam:9 , X_a:9.320, theta 0.001110688236780116, theta_star 0.0008352016449559151, diff 0.0002754865918242009
n = 3, lam:9 , X_a:8.889, theta 0.001110688236780116, theta_star 0.0012257707578750587, diff -0.00011508252109494266
n = 4, lam:9 , X_a:9.040, theta 0.001110688236780116, theta_star 0.0010715944062497144, diff 3.909383053040164e-05
n = 5, lam:9 , X_a:8.981, theta 0.001110688236780116, theta_star 0.001129703692137538, diff -1.9015455357421955e-05
n = 6, lam:9 , X_a:9.004, theta 0.001110688236780116, theta_star 0.0011066761764264611, diff 4.012060353654869e-06


Теперь покажем, что данная оценка является смещенной: для этого нагенерируем i выборок фиксированного размера 
n, и посчитаем для них $\theta^\ast$. Покажем, что в среднем, она не равна неизвестному параметру $\theta$.

Несмещенность $E\theta^\ast = \theta $\
Асимптотическая несмещенность $E\theta^\ast \rightarrow \theta $, c ростом n.\
$\theta^\ast = \overline X e ^{-\overline X }$

$E\theta^\ast = P(\theta = k) * k$ 

In [15]:
# n - размер выборки
# m - колво выборок 
true_lambda = 1
true_theta = true_lambda * np.exp(-true_lambda)
n = 10
for i in [1, 5, 25, 250, 2500, 25000, 50000]:  
    theta_100 = []
    for _ in range(i):
        r_mean = np.mean(np.random.poisson(true_lambda, n)) 
        theta = r_mean * np.exp(-r_mean) 
        theta_100.append(theta) 
        
    print(i, np.mean(theta_100) == true_theta, np.mean(theta_100) - true_theta) 

1 False -0.008416269877665083
5 False -0.02551006919990967
25 False -0.019033785706152384
250 False -0.021517567282570926
2500 False -0.017953869199577532
25000 False -0.018523907388096006
50000 False -0.018652455745512275


Как мы видим при маленьких значениях n, т е при маленьких выбоках, оценка в среднем не сходится к  $\theta$, следовательно она смещена, проверим на асимптотическую несмещенность, увеличим n = 10000

In [17]:
# n - размер выборки
# m - колво выборок 
true_lambda = 1
true_theta = true_lambda * np.exp(-true_lambda)
n = 10000
for i in [1, 5, 25, 250, 2500, 25000, 50000]: 
    theta_100 = []
    for _ in range(i):
        r_mean = np.mean(np.random.poisson(true_lambda, n)) 
        theta = r_mean * np.exp(-r_mean) 
        theta_100.append(theta) 
        
    print(i, np.mean(theta_100) == true_theta, np.mean(theta_100) - true_theta) 

1 False -8.717190237705896e-06
5 False -1.2506105408427448e-05
25 False -2.2550748382810237e-05
250 False -1.8523588946495195e-05
2500 False -1.831537689866991e-05
25000 False -1.8470014436056115e-05
50000 False -1.851684969589318e-05


Как мы видим, данная оценка является смещенной, но ассимптотически несмещенной, так как с ростом числа наблюдейний математическое ожидание от оценки стремится к параметру $\theta$.