In [3]:
import numpy as np
import sympy as sp
import matplotlib as mpl
import sklearn as skl

Пусть ˆθ = T(X1, . . . , Xn) оценка параметра θ, а b = E (
ˆθ) − θ – смещение.
Доказать формулу
∆ = Var(ˆθ) + b
2
,
где ∆ = E [(ˆθ − θ)
2
] – среднеквадратичная ошибка оценки.

In [5]:
# Определяем переменные
theta, theta_hat, b = sp.symbols('theta theta_hat b')

# Определение смещения
b_def = sp.Eq(b, theta_hat - theta)

# Вычисление среднеквадратичной ошибки
mse = (theta_hat - theta)**2

# Замена математического ожидания theta_hat на theta + b в MSE
mse = mse.subs(theta_hat, theta + b)

# Вычисление Var(theta_hat) (по определению)
var_theta_hat = (theta_hat - (theta + b))**2

# Вычисление ожидаемой ошибки
expected_error = var_theta_hat + b**2

# Проверка равенства
is_equal = sp.simplify(mse - expected_error) == 0

print(f"Среднеквадратичная ошибка: {mse}")
print(f"Ожидаемая ошибка: {expected_error}")
print(f"Равенство верно? {is_equal}")

Среднеквадратичная ошибка: b**2
Ожидаемая ошибка: b**2 + (-b - theta + theta_hat)**2
Равенство верно? False


Исследователь получил два наблюдения X1 и X2 случайной величины X,
причем он предполагает, что второе наблюдение в два раза важнее первого. В качестве оценки математического ожидания θ случайной величины
X используется оценка вида ˆθ = aX1 + 2aX2. Известно отношение
σ
2
θ
2
=
3
5
.
Найдите «лучшую» оценку такого вида, используя среднеквадратичный
подход сравнения. Является ли эта оценка несмещенной?


In [15]:
import sympy as sp

# Определение переменных
theta, X1, X2, a, sigma = sp.symbols('theta X1 X2 a sigma')

# Оценка математического ожидания
theta_hat = a*X1 + 2*a*X2

# Среднеквадратичная ошибка
MSE = (theta_hat - theta)**2

# Используем известные свойства математического ожидания и дисперсии
MSE_substituted = MSE.subs({X1**2: sigma**2 + theta**2, 
                X2**2: sigma**2 + theta**2, 
                X1*X2: theta**2, 
                X1: theta, 
                X2: theta})

# Взятие производной MSE по a и ее приравнивание к нулю
optimal_a = sp.solve(sp.diff(MSE_substituted, a), a)

# Проверка на несмещенность
unbiased_check = theta_hat.subs({X1: theta, X2: theta}) - theta

print(f"Оптимальное значение для a: {optimal_a}")
print(f"Оценка несмещенная? {'Да' if unbiased_check == 0 else 'Нет'}")
print(f"MSE после подстановки: {MSE_substituted}")


Оптимальное значение для a: [1/3]
Оценка несмещенная? Нет
MSE после подстановки: (3*a*theta - theta)**2


Пусть X1, X2, X3, X4 – выборка из N(θ; σ
2
). Рассмотрим две оценки параметра θ:
ˆθ1 =
X1 + 2X2 + 3X3 + 4X4
10
,
ˆθ2 =
X1 + 4X2 + 4X3 + X4
10
.
a) Покажите, что обе оценки несмещенные.
б) Какая из оценок оптимальная?


In [12]:

# Определение переменных
theta, X1, X2, X3, X4, sigma = sp.symbols('theta X1 X2 X3 X4 sigma')

# Определение оценок
theta_hat1 = (X1 + 2*X2 + 3*X3 + 4*X4) / 10
theta_hat2 = (X1 + 4*X2 + 4*X3 + X4) / 10

# Проверка на несмещенность
expectation_theta_hat1 = theta_hat1.subs({X1: theta, X2: theta, X3: theta, X4: theta})
expectation_theta_hat2 = theta_hat2.subs({X1: theta, X2: theta, X3: theta, X4: theta})

# Вычисление дисперсий
var_theta_hat1 = sp.simplify((theta_hat1 - expectation_theta_hat1)**2).subs({X1: sigma**2 + theta**2, X2: sigma**2 + theta**2, X3: sigma**2 + theta**2, X4: sigma**2 + theta**2})
var_theta_hat2 = sp.simplify((theta_hat2 - expectation_theta_hat2)**2).subs({X1: sigma**2 + theta**2, X2: sigma**2 + theta**2, X3: sigma**2 + theta**2, X4: sigma**2 + theta**2})

print(f"Ожидаемое значение для theta_hat1: {expectation_theta_hat1}")
print(f"Ожидаемое значение для theta_hat2: {expectation_theta_hat2}")

print(f"Дисперсия для theta_hat1: {var_theta_hat1}")
print(f"Дисперсия для theta_hat2: {var_theta_hat2}")

difference = sp.simplify(var_theta_hat1 - var_theta_hat2)
if difference < 0:
    optimal_estimate = "theta_hat1"
else:
    optimal_estimate = "theta_hat2"
print(f"Оптимальная оценка: {optimal_estimate}")


Ожидаемое значение для theta_hat1: theta
Ожидаемое значение для theta_hat2: theta
Дисперсия для theta_hat1: (10*sigma**2 + 10*theta**2 - 10*theta)**2/100
Дисперсия для theta_hat2: (10*sigma**2 + 10*theta**2 - 10*theta)**2/100
Оптимальная оценка: theta_hat2


Пусть X1, X2, . . . , Xn – выборка из равномерного распределения U([0; θ]) c
неизвестным параметром θ > 0. Требуется оценить параметр θ. В качестве
оценки параметра θ рассматриваются:
ˆθ1 = 2X, ˆθ2 =
n + 1
n
X(n)
,
ˆθ3 = (n + 1)X(1).
а) Будут ли оценки несмещенными?; б) Состоятельными? в) Найти среди
них оптимальную.

In [27]:

# Определение переменных
n, theta, X = sp.symbols('n theta X')

# Для определенности возьмем n=4 (можно изменить)
n_value = 4
Xs = sp.symbols(f'X1:{n_value+1}')

# Определение порядковых статистик
X_1 = sp.Symbol('X_(1)')
X_n = sp.Symbol(f'X_({n_value})')

# Оценки параметра
theta_hat1 = 2 * sp.Sum(X, (X, 1, n)) / n
theta_hat2 = (n + 1)/n * X_n
theta_hat3 = (n + 1) * X_1


# Ожидаемые значения оценок
E_theta_hat1 = theta_hat1.subs({xi: theta/2 for xi in Xs})
E_theta_hat2 = theta_hat2.subs(X_n, theta)  # Поскольку X_n <= theta
E_theta_hat3 = theta_hat3.subs(X_1, 0)  # Поскольку X_1 >= 0

print(f"Оценка theta_hat1 несмещенная? {'Да' if E_theta_hat1 == theta else 'Нет'}")
print(f"Оценка theta_hat2 несмещенная? {'Да' if E_theta_hat2 == theta else 'Нет'}")
print(f"Оценка theta_hat3 несмещенная? {'Да' if E_theta_hat3 == theta else 'Нет'}")

# Дисперсии оценок
Var_theta_hat1 = theta_hat1.var().subs({xi: theta/2 for xi in Xs})
Var_theta_hat2 = theta_hat2.var().subs(X_n, theta)
Var_theta_hat3 = theta_hat3.var().subs(X_1, 0)

# Преобразование дисперсий в числовые значения с помощью numpy
var_values = np.array([Var_theta_hat1, Var_theta_hat2, Var_theta_hat3], dtype=float)

# Определение наименьшей дисперсии
min_var_index = np.argmin(var_values)

# Определение имени наименьшей дисперсии
var_names = ["Var_theta_hat1", "Var_theta_hat2", "Var_theta_hat3"]
min_var_name = var_names[min_var_index]

print(f"Оптимальная оценка с наименьшей дисперсией: {min_var_name}")


Оценка theta_hat1 несмещенная? Нет
Оценка theta_hat2 несмещенная? Нет
Оценка theta_hat3 несмещенная? Нет


AttributeError: 'Mul' object has no attribute 'var'

Пусть X – случайная величина, которая имеет равномерное распределение на отрезке [0, θ]. Рассмотрим выборку объема 3 и класс оценок вида
ˆθ = c · X неизвестного параметра θ. Найдите такое c, чтобы:
a) оценка ˆθ – несмещенная;
б) оценка ˆθ – эффективная в рассматриваемом классе. Здесь под эффективностью оценки понимается свойство, что оценка обладает наименьшим ∆.
