#Практическая работа №2: Обработка выборочных данных. Нахождение точечных оценок параметров распределения

Выполнили студенты гр. 0381 Лаари Екатерина и Захаров Филипп. Вариант №9

## Цель работы

Получение практических навыков нахождения точечных статистических оценок параметров распределения.

##Основные теоретические положения

Математическим ожиданием дискретной случайной величины называется сумма произведений ее возможных значений на соответствующие им вероятности:

$M(X)=\sum\limits^{n}_{i = 1}x_in_i$

Дисперсией случайной величины называется математическое ожидание квадрата ее отклонения от ее математического ожидания:

$D(X)=M(X-M(X))^2$

Среднеквадратическим отклонением случайной величины $Х$ (стандартом) называется квадратный корень из ее дисперсии:

$\sigma=\sqrt{D(X)}$

Асимметрией, или коэффициентом асимметрии, называется числовая характеристика, определяемая выражением:

$a^*_s=\dfrac{m_3}{S^3}$,
 где $m_3$ – центральный эмпирический момент третьего порядка, $S$ – исправленная выборочная дисперсия.

Центральным моментом порядка $k$ случайной величины $X$ называется математическое ожидание величины:

$M(X-M(X))^k=m_k$.

Исправленная выборочная дисперсия определяется по формуле:

$S^2=\dfrac{N}{N-1}D_B$,
 где $D_B=\dfrac{1}{N}\sum\limits^{k}_{i = 1}(x_i-\bar x)^2n_i$ – выборочная дисперсия.

Эксцессом называется численная характеристика случайной величины, которая определяется выражением:

$\varepsilon^*_k=\dfrac{m_4}{S^4}-3$.


Для нормального закона $\frac{m_4}{S^4}=3$. Отсюда следует, что для нормального закона $\varepsilon_k=0$. Смысл термина «эксцесс» состоит в том, что он показывает, как быстро уменьшается плотность распределения вблизи её максимального значения.

Мода дискретной случайной величины – это наиболее вероятное значение этой случайной величины. Модой непрерывной случайной величины называется ее значение, при котором плотность вероятности максимальна.

$M_O(X)={x_M}_O+h\dfrac{m_2-m_1}{(m_2-m_1)+(m_2-m_3)}$,
где ${x_M}_O$ – начало модального интервала, $h$ – длина частичного интервала (шаг), $m_1$ – частота предмодального интервала, $m_2$ – частота модального интервала, $m_3$ – частота послемодального интервала.


Медиана случайной величины $X$ – это такое ее значение $M_e$, для которого выполнено равенство

$P(X<M_e)=P(X)>M_e$,

$M_e(X)={x_M}_e+h\dfrac{0,5n-SM_{e^-1}}{{n_M}_e}$,
где ${x_M}_e$ – начало медианного интервала, $h$ – длина частичного интервала (шаг), $n$ – объем совокупности, $SM_{e^-1}$ – накопленная частота интервала, предшествующая медианному, ${n_M}_e$ – частота медианного интервала.

##Постановка задачи
Для заданных выборочных данных вычислить с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии, эксцесса, моды, медианы и коэффициента вариации исследуемой случайной величины. Полученные результаты содержательно проинтерпретировать.

In [None]:
import math

Инициализация выборки

In [None]:
data = {'A': [ 480, 510, 426, 482, 393, 510, 542, 437, 453, 386, 434, 418, 391, 399, 486, 421, 496, 463, 508, 419, 434, 440, 405, 434, 344,
              415, 463,475,463,392,452,504,443,461,340,438,523,416,483,440,423,386,321,433,351,481,465,390,463,468,488,443,505,395,474,490,
               396,362,566,418,502,500,359,443,421,433,514,320,406,465,487,532,330,458,408,480,573,518,394,440,443,452,521,471,398,446,400,
               457,407,505,390,557,591,450, 546, 454, 553, 544, 463, 411]}

N = 100 # Размер выборки

In [None]:
intervals_number = int(1 + 3.322 * math.log10(N))
min_density, max_density = min(data["A"]), max(data["A"])
range_density = max_density - min_density
h = round(range_density / intervals_number)
print("Используя формулу Стерджеса оптимальное количество интервалов для разбиения выборки: ", intervals_number)
print("Минимальное значение ряда: ", min_density)
print("Максимальное значение ряда:", max_density)
print("Размах выборки: ", range_density)
print("Шаг интервального ряда: ", h)


Используя формулу Стерджеса оптимальное количество интервалов для разбиения выборки:  7
Минимальное значение ряда:  320
Максимальное значение ряда: 591
Размах выборки:  271
Шаг интервального ряда:  39


In [None]:
isInInterval = lambda x: min(int((abs(x) - min_density) / range_density * intervals_number), intervals_number - 1)
borders = [((min_density + range_density) / intervals_number * i, (min_density + range_density) / intervals_number * (i + 1))
           for i in range(intervals_number)]
intervals = [[] for i in range(intervals_number)]

for value in data["A"]:
    intervals[isInInterval(value)].append(value)

intervals = [sorted(i) for i in intervals]

print("i |       Интервал      | Середина интервала | Абс. частота | Отн. частота | Накоп. абс. частота | Накоп. отн. частота |")
for i, interval in enumerate(intervals):
    print(f"{i + 1} | [{interval[0]:.3f} - {interval[-1]:.3f}) |", end=" ")
    print(f"{((intervals[i][0] + intervals[i][-1]) / 2):^18.2f} |", end=" ")
    print(f"{len(intervals[i]):^13.3f}| {len(intervals[i]) / N:^13.3f}|", end=" ")
    print(f"{sum([len(k) for k in intervals[:i + 1]]):^20.3f}|", end=" ")
    print(f"{sum([len(k) for k in intervals[:i + 1]]) / N:^20.3f}|")

i |       Интервал      | Середина интервала | Абс. частота | Отн. частота | Накоп. абс. частота | Накоп. отн. частота |
1 | [320.000 - 351.000) |       335.50       |     6.000    |     0.060    |        6.000        |        0.060        |
2 | [359.000 - 396.000) |       377.50       |    12.000    |     0.120    |        18.000       |        0.180        |
3 | [398.000 - 434.000) |       416.00       |    22.000    |     0.220    |        40.000       |        0.400        |
4 | [437.000 - 474.000) |       455.50       |    28.000    |     0.280    |        68.000       |        0.680        |
5 | [475.000 - 510.000) |       492.50       |    19.000    |     0.190    |        87.000       |        0.870        |
6 | [514.000 - 546.000) |       530.00       |     8.000    |     0.080    |        95.000       |        0.950        |
7 | [553.000 - 591.000) |       572.00       |     5.000    |     0.050    |       100.000       |        1.000        |


1. Вычисление условных вариант

Условная варианта равна $u_i=\frac{x_i-C}{h}$

Где C - середина 4 интервала (455.5)

h - шаг выборки $(max(data) - min(data)) / len(intervals) = \frac{591-320}{7}=39$

In [None]:
isInInterval = lambda x: min(int((abs(x) - min_density) / range_density * intervals_number), intervals_number - 1)
borders = [(min_density + range_density / intervals_number * i, min_density + range_density / intervals_number * (i + 1))
           for i in range(intervals_number)]
intervals = [[] for i in range(intervals_number)]

for value in data["A"]:
    intervals[isInInterval(value)].append(value)
intervals = [sorted(i) for i in intervals]

print("Таблица 1:")
print("i |  x_i  |  n_i |  u_i | n_i*u_i | n_i*u_i^2 | n_i*u_i^3 | n_i*u_i^4 | n_i*(u_i + 1)^4 |")
for i, interval in enumerate(intervals):
    print(f"{i + 1} |", end=" ")
    print(f"{((intervals[i][0] + intervals[i][-1]) / 2):.1f} |", end=" ")
    n_i = len(intervals[i])
    print(f"{n_i:^5.0f}|", end=" ")
    u_i = i-3
    print(f"{u_i:^5}|", end=" ")
    print(f"{n_i*u_i:^8}|", end=" ")
    print(f"{n_i*u_i**2:^10}|", end=" ")
    print(f"{n_i*u_i**3:^10}|", end=" ")
    print(f"{n_i*u_i**4:^10}|", end=" ")
    print(f"{n_i*(u_i+1)**4:^16}|")
sum_n_i = 0
sum_x_i = 0
sum_u_i = 0
sum_ni_ui = 0
sum_ni_ui2 = 0
sum_ni_ui3 = 0
sum_ni_ui4 = 0
sum_ni_ui14 = 0
for i, interval in enumerate(intervals):
    n_i = len(intervals[i])
    u_i = i-3

    sum_x_i     += ((interval[0] + interval[-1]) / 2)
    sum_n_i     += n_i
    sum_u_i     += u_i
    sum_ni_ui   += n_i * u_i
    sum_ni_ui2  += n_i * u_i ** 2
    sum_ni_ui3  += n_i * u_i ** 3
    sum_ni_ui4  += n_i * u_i ** 4
    sum_ni_ui14 += n_i*(u_i+1)**4

print(f"S | {sum_x_i}|  {sum_n_i} |   -  |   {sum_ni_ui}   |    {sum_ni_ui2}    |    {sum_ni_ui3}    |    {sum_ni_ui4}   |       {sum_ni_ui14}      |")


Таблица 1:
i |  x_i  |  n_i |  u_i | n_i*u_i | n_i*u_i^2 | n_i*u_i^3 | n_i*u_i^4 | n_i*(u_i + 1)^4 |
1 | 335.5 |   6  |  -3  |   -18   |     54    |    -162   |    486    |        96       |
2 | 377.5 |  12  |  -2  |   -24   |     48    |    -96    |    192    |        12       |
3 | 416.0 |  22  |  -1  |   -22   |     22    |    -22    |     22    |        0        |
4 | 455.5 |  28  |   0  |    0    |     0     |     0     |     0     |        28       |
5 | 492.5 |  19  |   1  |    19   |     19    |     19    |     19    |       304       |
6 | 530.0 |   8  |   2  |    16   |     32    |     64    |    128    |       648       |
7 | 572.0 |   5  |   3  |    15   |     45    |    135    |    405    |       1280      |
S | 3179.0|  100 |   -  |   -14   |    220    |    -62    |    1252   |       2368      |


Контроль вычислений

In [None]:
print(sum_ni_ui14, '==', N + sum_ni_ui4 + 4 * sum_ni_ui3 + 6 * sum_ni_ui2 + 4 * sum_ni_ui)
correct = sum_ni_ui14 == N + sum_ni_ui4 + 4 * sum_ni_ui3 + 6 * sum_ni_ui2 + 4 * sum_ni_ui
if correct:
  print("Вычисления верные")
else:
  print("Вычисления неверные")

2368 == 2368
Вычисления верные


2. Вычислить условные эмпирические моменты, с помощью них вычислить центральные эмпирические моменты.

${v_1^*} = \frac{\sum u_i n_i}{N} = -0.14$

${v_2^*} = \frac{\sum u_i^2 n_i}{N} = 2.2$

${v_3^*} = \frac{\sum u_i^3 n_i}{N} = -0.62$

${v_4^*} = \frac{\sum u_i^4 n_i}{N} = 12.52$




In [None]:
s = 0
i = intervals[3]
all_middle = i[len(i) // 2] if len(i) % 2 == 1 else (i[len(i) // 2 - 1] + i[len(i) // 2]) / 2
for i in intervals:
  middle = i[len(i) // 2] if len(i) % 2 == 1 else (i[len(i) // 2 - 1] + i[len(i) // 2]) / 2
  s += len(i) * round((middle - all_middle) / (range_density / intervals_number))

v1 = s / N
print(v1)


-0.14


In [None]:
v2 = 2.2
v3 = -0.62
v4 = 12.52
h = range_density / intervals_number

mu_2 = (v2 - v1 ** 2) * h**2
mu_3 = (v3 - 3 * v1 * v2 + 2 * v1 ** 3) * h**3
mu_4 = (v4 - 4 * v3 * v1 + 6 * v2 * v1 ** 2 - 3 * v1 ** 4) * h**4
print(mu_2)
print(mu_3)
print(mu_4)

3267.9746204081634
17321.103100967943
27923443.410049304


\begin{array}{ccc}
i&{v_i^*}&{\mu_i^*}\\
1&-0.14&-\\
2&2.2&3316\\
3&-0.62&-38806\\
4&12.52&30363375
\end{array}

3. Вычислить выборочное среднее и дисперсию с помощью стандартной формулы и с помощью условных вариант.

$\overline x = v_1^* * h + C = -0.14 * 39 + 455.5 = 450.08$

In [None]:
from collections import Counter

s = 0
counter = Counter(data["A"])
for i in counter:
  s += counter[i] / N * i

s_by_v = v1 * range_density / intervals_number + (intervals[3][0] + intervals[3][-1]) / 2
print("Выборочное среднее")
print("Стандартная формула:", s)
print("Условные варианты:", s_by_v)

Выборочное среднее
Стандартная формула: 449.78999999999985
Условные варианты: 450.08


In [12]:
s2 = 0
counter2 = Counter(data["A"])
for i in counter2:
  s2 += counter2[i] / N * i ** 2

print("Дисперсия")
print("Стандартная формула:", s2 - s ** 2)
print("Условные варианты:", mu_2)

Дисперсия
Стандартная формула: 3229.2459000001254
Условные варианты: 3267.9746204081634


4. Вычислить исправленную выборочную дисперсию $S^2$ и исправленное СКО $S$. Сравнить данные оценки с смещёнными оценками дисперсии. Сделать выводы.

In [13]:
dis = 0
for i in data["A"]:
  dis += (i - s) ** 2
dis /= N
print("Выборочную дисперсия", dis)
print("Исправленная оценка дисперсии", N / (N - 1) * dis)
print("Статистическая оценка СКО", math.sqrt(N / (N - 1) * dis))

Выборочную дисперсия 3229.2459000000003
Исправленная оценка дисперсии 3261.864545454546
Статистическая оценка СКО 57.11273540511386


5. Найти статистическую оценку коэффициентов асимметрии $a^*_s$ и $ε^*_s$ эксцесса. Сделать выводы.

In [14]:
A_s = mu_3 / (math.sqrt(N / (N - 1) * dis)) ** 3
E = mu_4 / (math.sqrt(N / (N - 1) * dis)) ** 4 - 3

print("Асимметрия", A_s)
print("Эксцесс", E)

Асимметрия 0.09297724283614614
Эксцесс -0.3755571000775899


Асимметрия положительна, следовательно, в данном случае это правосторонняя асимметрия, которая характеризуется удлиненным правым хвостом.

Эксцесс отрицателен, следовательно, эмпирическое распределение является более низким и пологим относительно нормального распределения.


6. Для интервального ряда вычислить моду $M^*_o$, медиану $M^*_e$ и коэффициент вариации $V^*$ заданного распределения. Сделать выводы.

Модальный интервал [437.000 - 474.000) - номер 4, т.к. ему соответствует наибольшая частота. Тогда

$X_{M_0} = 437$

$f_{M_0} = 28$

$h_{M_0} = 37$

$f_{M_{0-1}} = 22$

$f_{M_{0+1}} = 19$

$M_0 = 437 + 37 * \frac{28 - 22}{(28 - 22) + (28-19)} = 451.8$

Мода вариационного ряда равна 451.8, следовательно большинство чисел имеет значение, близкое к 451.8.

Четвертый интервал имеет накопленную абсолютную частоту более 50, следовательно является медианным интервалом, тогда:

$X_{M_e} = 437$

$f_{M_e} = 28$

$h_{M_e} = 37$

$S_{M_{e-1}} = 40$

$M_e = 437 + 37 * \frac{50 - 40}{28} = 450.21$

450.21 - медиана вариацинного ряда. Половина чисел принимает значение меньшее, чем 450.21, а половина большее.

##Выводы

В ходе работы были найдены середины интервалов и накопленные частоты для интервального ряда. Были вычислены условные варианты для полученных вариант.

Далее были вычислены условные эмпирические моменты, а с их помощью вычислены начальные и центральные эмпирические моменты. Правильность проведенных  вычислений подтверждена.

Также были посчитаны выборочное среднее и дисперсия с помощью стандартных формул и с помощью условных вариант. Оценки совпали.

Кроме того были посчитаны асимметрия и эксцесс. Коэффициент асимметрии положителен, следовательно, в данном случае это правосторонняя асимметрия. Коэффициент эксцесса отрицателен, следовательно, эмпирическое распределение является более низким и пологим относительно нормального распределения. Были вычислены мода и медиана.

Таким образом, в результате выполнения практической работы были получены навыки нахождения точечных статистических оценок параметров распределения.
