# Практическая работа №2: Обработка выборочных данных. Нахождение точечных оценок параметров распределения

Выполнил студент гр. 1384 Степаненко Денис Владиславович.

## Цель работы

Получение практических навыков нахождения точечных статистических оценок параметров распределения.

## Основные теоретические положения

**Статистическая оценка $\Theta^*$** неизвестного параметра теоритического распределения $\Theta$ - фунцкия от наблюдаемых значений случайной величины  $$\Theta^*=f(x_1, ... , x_n)$$

**Точечные оценки** - стат. оценки, определяемые одним числом

**Несмещенная оценка**, если выполнено:

$$\mathbb{E}(\Theta^*) = \Theta$$

**Эффективная оценка**, если выполнено при заданном объеме выборки n:

$$\mathbb{D}(\Theta^*) \to min$$

**Состоятельная оценка для параметра $\Theta^*$**, если:

$$\underset{N \to \inf}{lim }\mathbb{P}(|\Theta - \Theta^*| \le \epsilon)=1,$$

где $\epsilon > 0$ сколь угодо малое число.

**Начальный эмпирический момент k-ого порядка:**

$$\bar{M}_k = \frac{1}{N}\sum n_j x_j^k, $$

где N - объем выборки, $n_j$ - абсолютная частота, $x_j$ - середина j-ого интервала

**Центральный эмпирический момент k-ого порядка:**
$$\bar{m}_k = \frac{1}{N}\sum n_j (x_j^k - \bar{x}_в ), $$

где $\bar{x}_в$ - выборочное среднее, равное $\bar{M}_1$

**Выборочная дисперсия:**

$$\mathbb{D_в} = \bar{m}_2 = \frac{1}{N}\sum n_j(x_j - \bar{x}_в)^2$$

**Исправленная оценка дисперсии:**

$$s^2 = \frac{N}{N-1}\mathbb{D_в}$$

**Статистическая оценка СКО:**

$$\sigma_в = \sqrt{\mathbb{D_в}}$$

**Статистическая оценка асимметрии:**

$$\bar{A}_s = \frac{\bar{m}_3}{s^3}$$

**Статистическая оценка эксцесса:**

$$\bar{E} = \frac{\bar{m}_4}{s^4} - 3$$

**Условная варианта:**

$$u_j = \frac{x_j - C}{h},$$

где $x_j$ - середина интервала, С - условный ноль (середина интервального ряда)

**Условный момент k-ого порядка:**

$$\bar{M}_k^* = \frac{1}{N}\sum n_j u_j^k = \frac{1}{N}\sum n_j\left( \frac{x_j-C}{n} \right)^k$$

робастные выборочные статистические оценки:

1) **Мода:**

$$M_o^* = x_{i-1} + h \frac{\tilde{m}_i - \tilde{m}_{i-1}}{(\tilde{m}_i - \tilde{m}_{i-1})+(\tilde{m}_i - \tilde{m}_{i+1})}, $$

где $x_{i-1}$ - левая граница интервала, содержащего значение моды; h - длина интервалов; \tilde{m}_i - относительная частота i-ого интервала.

2) **Медиана:**
$$M_e^* = x_{i-1} + h \frac{0.5-\sum_{j=1}^{i-1}h\ \tilde{m}_j}{\tilde{m}_i}$$

3) **Коэффициент вариации:**

$$V^* = \frac{\sigma_в}{\bar{x}_в}\cdot 100%$$











## Постановка задачи

Для заданных выборочных данных вычислить с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии, эксцесса, моды, медианы и коэффициента вариации исследуемой случайной величины. Полученные результаты содержательно проинтерпретировать.

## Выполнение работы

### Пункт 1.
Для середин интервального ряда, полученного в практической работе №1, вычислить условные варианты. Заполнить табл. 1 (в последней строке Σ необходимо заполнить суммы столбцов; ячейки отмеченные прочерком заполнять не надо). Провести контроль вычислений.

In [None]:
import pandas as pd
import numpy as np

In [None]:
x = np.array([50.4742,  67.4227,  84.3712, 101.3197, 118.2682, 135.2167, 152.1652])
n = np.array([0.2105, 0.2105, 0.1895, 0.1684, 0.1895, 0.0105, 0.0211])
m = np.array([20, 20, 18, 16, 18, 1, 2])
h = 16.94848642857143
intervals = np.array([[ 42.,      58.9485],
 [ 58.9485,  75.897 ],
 [ 75.897,   92.8455],
 [ 92.8455, 109.7939],
 [109.7939, 126.7424],
 [126.7424, 143.6909],
 [143.6909, 160.6394]])
# x = np.array([1.2143, 1.6429, 2.0714, 2.5,    2.9286, 3.3571, 3.7857])

C - условный ноль, равный значению варианты среднего значения интервального ряда.

In [None]:
C = x[len(x) // 2]
u = np.array([int((x - C)/h) for x in x])
print(u)

[-3 -2 -1  0  1  2  3]


In [None]:
nu = n*u
nu2 = n*u**2
nu3 = n*u**3
nu4 = n*u**4
nup14 =n*(u+1)**4

Таблица 1

| i | $x_i$ | $n_i$ | $u_i$ | $n_iu_i$ | $n_iu_i^2$ | $n_iu_i^3$ | $n_iu_i^4$ | $n_i(u_i-1)^4$ |
|---|---|---|---|---|---|---|---|---|
| 1 | 50.4742 | 0.2105 | -3 | -0.6315 | 1.8945 | -5.6835 | 17.0505 | 3.368 |
| 2 | 67.4227 | 0.2105 | -2 | -0.421 | 0.842 | -1.684 | 3.368 | 0.2105 |
| 3 | 84.3712 | 0.1895 | -1 | -0.1895 | 0.1895 | -0.1895 | 0.1895 | 0.0 |
| 4 | 101.3197 | 0.1684 | 0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.1684 |
| 5 | 118.2682 | 0.1895 | 1 | 0.1895 | 0.1895 | 0.1895 | 0.1895 | 3.032 |
| 6 | 135.2167 | 0.0105 | 2 | 0.021 | 0.042 | 0.084 | 0.168 | 0.8505 |
| 7 | 152.1652 | 0.0211 | 3 | 0.0633 | 0.1899 | 0.5697 | 1.7091 | 5.4016 |
|  |$\sum$| 1.0 | - | -0.9682 | 3.3474 | -6.7138 | 22.6746 | 13.031 |

In [None]:
# контроль вычислений
if(round(sum(nup14),6) == round((sum(nu4) + 4*sum(nu3) + 6*sum(nu2) + 4*sum(nu) + sum(n)),6)):
  print("Вычисления верны!")
else:
  print("Вычисоения ошибочны!")

Вычисления верны!


### Пункт 2.
Вычислить условные эмпирические моменты $\bar{M}^*_k$ через условные варианты. С помощью условных эмпирических моментов вычислить центральные эмпирические моменты $\bar{m}_k$. Полученные результаты занести в табл. 2.

In [None]:
M = [sum(nu), sum(nu2), sum(nu3), sum(nu4)]
m = [M[0]*h+C, (M[1]-M[0]**2)*h**2, (M[2]-3*M[1]*M[0]+2*M[0]**3)*h**3, (M[3]-4*M[2]*M[0]+6*M[1]*M[0]**2-3*M[0]**4)*h**4]

for i in range(4):
    row = [round(arr[i], 4) for arr in [M, m]]
    print(f"| {i+1}", *row,'', sep=' | ')

| 1 | -0.9682 | 84.9102 | 
| 2 | 3.3474 | 692.2721 | 
| 3 | -6.7138 | 5812.2503 | 
| 4 | 22.6746 | 1061493.1709 | 


Таблица 2

| k | $\bar{M}^*_k$ | $\bar{m}_k$ |
|---|---|---|
| 1 | -0.9682 | 84.9102 |
| 2 | 3.3474 | 692.2721 |
| 3 | -6.7138 | 5812.2503 |
| 4 | 22.6746 | 1061493.1709 |

### Пункт 3.
Вычислить выборочные среднее $\bar x_{\textit{в}}$ и дисперсию $D_{\textit{в}}$ с помощью стандартной формулы и с помощью условных вариант. Убедиться, что результаты совпадают. Вычислить выборочное СКО $\sigma_{\textit{в}}$.



In [None]:
# вычисление выборочного среднего и дисперсии (стандартная формула)
x_mean = sum(n*x)
variance = sum(n*(x - x_mean)**2)
print("Выборочное среднее:", round(x_mean,4))
print("Выборочная дисперсия:", round(variance,4))

# вычисление выборочного среднего и дисперсии (условные варианты)
x_mean_rel = M[0]*h+C
variance_rel = m[1]

# проверка
if(round(x_mean,2) == round(x_mean_rel,2) and round(variance,2) == round(variance_rel,2)):
  print("Значения совпадают!")
else:
  print("Значения различаются!")

standard_deviation = variance**(1/2)
print("Выборочное СКО:", round(standard_deviation,4))

Выборочное среднее: 84.9102
Выборочная дисперсия: 692.2733
Значения совпадают!
Выборочное СКО: 26.3111


### Пункт 4.

Вычислить исправленную выборочную дисперсию $s^2$ и исправленное СКО $s$. Сравнить данные оценки со смещёнными оценками дисперсии и СКО. Сделать выводы

In [None]:
N = 95
s2 = N/(N-1)*variance
print("Исправленная выборочная дисперсия:", round(s2,4))

s = s2**(1/2)
print("Исправленное СКО", round(s,4))


Исправленная выборочная дисперсия: 699.6379
Исправленное СКО 26.4507


Исправленные оценки немного больше смещенных оценок. Они отличаются из-за смещения, которое образуется при расчете с использованием статистик, которые основываются на данных выборки.

### Пункт 5.

Найти статистическую оценку коэффициентов асимметрии $\bar{A}_s$ и эксцесса $\bar{E}$. Сделать выводы.


In [None]:
A_s = m[2]/s**3
E = m[3]/s**4 - 3

print("Статистическая оценка асимметрии:", round(A_s,4))
print("Статистическая оценка эксцесса:", round(E,4))


Статистическая оценка асимметрии: 0.3141
Статистическая оценка эксцесса: -0.8314


В данном случае мы имеем дело с положительной асимметрией, т.е. хвост распределения данных отклонен немного вправо относильтено среднего значения.(это можно подтвердить тем, что мода меньше медианы и выборочного среднего)

Отрицательная оценка эксцесса показывает, что данные рапределены по платикуртическому распределению. Распределение более плосковершинное с легкими хвостами, по сравнению с нормальным.

### Пункт 6.

Для интервального ряда вычислить моду $M^*_o$, медиану $M^*_e$ и коэффициент вариации $V^*$ заданного распределения. Сделать выводы.

In [None]:
max_index = np.argmax(n)
# первый и второй интервалы равны
M_o = x[max_index] + 2*h*(n[i]+n[i+1])/(n[i]+n[i+1]+n[i]+n[i+1]+n[i+2] + n[i+3])
print("Мода", round(M_o,4))

i = 0
m = np.cumsum(n)
for k in range(len(n)):
  if m[k]>= 0.5:
    i = k
    break

M_e = intervals[i][0] + h * (0.5 - m[2])/n[i]
print("Медиана", round(M_e,4))

V = standard_deviation/x_mean * 100
print(f"Выборочный коэффициент вариации: {round(V)}%")

Мода 63.7213
Медиана 66.0141
Выборочный коэффициент вариации: 30.987


Мода близка к значению медианы и смещена влево относительно центрального значения в интервальном ряде. Поэтому можно говорить только о небольшой асимметричности распределения. Выборочный коэффициент вариации равен примерно 30%, что говорит о большм разбросе данных относительно среднего.

Сделаем аналогичные шаги для второй выборки.

In [None]:
x = np.array([1.2143, 1.6429, 2.0714, 2.5,    2.9286, 3.3571, 3.7857])
n = np.array([0.1474, 0.0211, 0.0316, 0.0632, 0.6526, 0.0211, 0.0632])
m = np.array([14, 2, 3, 6, 62, 2, 6])
h = 0.42857142857142855
intervals = np.array([[1.    , 1.4286],
 [1.4286, 1.8571],
 [1.8571, 2.2857],
 [2.2857, 2.7143],
 [2.7143, 3.1429],
 [3.1429, 3.5714],
 [3.5714, 4.    ]])

C = x[len(x) // 2]
u = np.array([round((x - C)/h) for x in x])

nu = n*u
nu2 = n*u**2
nu3 = n*u**3
nu4 = n*u**4
nup14 =n*(u+1)**4

# контроль вычислений
if(round(sum(nup14),6) == round((sum(nu4) + 4*sum(nu3) + 6*sum(nu2) + 4*sum(nu) + sum(n)),6)):
  print("Вычисления верны!")
else:
  print("Вычисоения ошибочны!")


M = [sum(nu), sum(nu2), sum(nu3), sum(nu4)]
m = [M[0]*h+C, (M[1]-M[0]**2)*h**2, (M[2]-3*M[1]*M[0]+2*M[0]**3)*h**3, (M[3]-4*M[2]*M[0]+6*M[1]*M[0]**2-3*M[0]**4)*h**4]


# вычисление выборочного среднего и дисперсии (стандартная формула)
x_mean = sum(n*x)
variance = sum(n*(x - x_mean)**2)
print("Выборочное среднее:", round(x_mean,4))
print("Выборочная дисперсия:", round(variance,4))

# вычисление выборочного среднего и дисперсии (условные варианты)
x_mean_rel = M[0]*h+C
variance_rel = m[1]

# проверка
if(round(x_mean,2) == round(x_mean_rel,2) and round(variance,2) == round(variance_rel,2)):
  print("Значения совпадают!")
else:
  print("Значения различаются!")

standard_deviation = variance**(1/2)
print("Выборочное СКО:", round(standard_deviation,4))

N = 95
s2 = N/(N-1)*variance
print("Исправленная выборочная дисперсия:", round(s2,4))

s = s2**(1/2)
print("Исправленное СКО", round(s,4))

A_s = m[2]/s**3
E = m[3]/s**4 - 3

print("Статистическая оценка асимметрии:", round(A_s,4))
print("Статистическая оценка эксцесса:", round(E,4))

max_index = np.argmax(n)
# первый и второй интервалы равны
M_o = x[max_index] + h*(n[i]-n[i-1])/(n[i]-n[i-1]+n[i]-n[i+1])
print("Мода", round(M_o,4))

i = 0
m = np.cumsum(n)
for k in range(len(n)):
  if m[k]>= 0.5:
    i = k
    break

M_e = intervals[i][0] + h * (0.5 - m[i-1])/n[i]
print("Медиана", round(M_e,4))

V = standard_deviation/x_mean * 100
print(f"Выборочный коэффициент вариации: {round(V)}%")

[-3 -2 -1  0  1  2  3]
Вычисления верны!
Выборочное среднее: 2.6584
Выборочная дисперсия: 0.4799
Значения совпадают!
Выборочное СКО: 0.6927
Исправленная выборочная дисперсия: 0.485
Исправленное СКО 0.6964
Статистическая оценка асимметрии: -1.0697
Статистическая оценка эксцесса: 0.3039
Мода 3.1355
Медиана 2.8697
Выборочный коэффициент вариации: 26%


Таблица 3

| i | $x_i$ | $n_i$ | $u_i$ | $n_iu_i$ | $n_iu_i^2$ | $n_iu_i^3$ | $n_iu_i^4$ | $n_i(u_i-1)^4$ |
|---|---|---|---|---|---|---|---|---|
| 1 | 1.2143 | 0.1474 | -3 | -0.4422 | 1.3266 | -3.9798 | 11.9394 | 2.3584 |
| 2 | 1.6429 | 0.0211 | -2 | -0.0422 | 0.0844 | -0.1688 | 0.3376 | 0.0211 |
| 3 | 2.0714 | 0.0316 | -1 | -0.0316 | 0.0316 | -0.0316 | 0.0316 | 0.0 |
| 4 | 2.5 | 0.0632 | 0 | 0.0 | 0.0 | 0.0 | 0.0 | 0.0632 |
| 5 | 2.9286 | 0.6526 | 1 | 0.6526 | 0.6526 | 0.6526 | 0.6526 | 10.4416 |
| 6 | 3.3571 | 0.0211 | 2 | 0.0422 | 0.0844 | 0.1688 | 0.3376 | 1.7091 |
| 7 | 3.7857 | 0.0632 | 3 | 0.1896 | 0.5688 | 1.7064 | 5.1192 | 16.1792 |
|$\sum$|- | 1 | 0 | 0.3684 | 2.7484 | -1.6524 | 18.418 | 30.7726 |

Таблица 4

| k | $\bar{M}^*_k$ | $\bar{m}_k$ |
|---|---|---|
| 1 | 0.3684 | 2.6579 |
| 2 | 2.7484 | 0.4799 |
| 3 | -1.6524 | -0.3613 |
| 4 | 18.418 | 0.7771 |

В этой выборке исправленные оценки отличаются меньше от смешенных, по сравнению с первой выборкой, т.к. отличаются длины интервалов. Оценка ассиметрии сильно отрицательна, что указывает на левую асимметрию - хвост вытянул влево, мода больше медианы и среднего. Эксцесс небольшой положительный, указывает на лептокуртическое распределение данных. И выборочный коэффициент вариации равен примерно 26%, что опять говорит о большом разбросе данных относительно выборочного среднего.

## Вывод

В ходе выполнения практической работы были успешно достигнуты поставленные цели, связанные с вычислением точечных статистических оценок параметров распределения. Для двух интервальных рядов проведен анализ данных, включая расчет математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии, эксцесса, моды, медианы и коэффициента вариации. Оба метода расчёта — стандартный и через условные варианты — подтвердили корректность результатов, так как значения выборочного среднего и дисперсии совпали.

Для первой выборки выявлена слабая положительная асимметрия 0.33, указывающая на правосторонний хвост распределения, при этом мода оказалась близка к медиане, что говорит об умеренной асимметрии. Отрицательный эксцесс -0.8 отражает платикуртический характер распределения с плоской вершиной и лёгкими хвостами. Коэффициент вариации показал высокую степень разброса данных.

Во второй выборке обнаружена сильная отрицательная асимметрия -1.06, характерная для левостороннего смещения, где мода превышает медиану и среднее значение. Положительный эксцесс 0.30 показал островершинное распределение с тяжёлыми хвостами, а коэффициент вариации 26% остался высоким, хотя и немного ниже, чем в первом случае.

Исправленные оценки дисперсии и СКО, как и ожидалось, оказались больше смещённых за счёт поправки на степень свободы. Это особенно заметно в первой выборке, где разница между оценками была более выраженной. Для второй выборки различия между исправленными и смещёнными оценками оказались менее значительными, что связано с шириной интервалов.