# Практическая работа №2: Обработка выборочных данных. Нахождение точечных оценок параметров распределения

Выполнила студентка гр. 1384 Шиняева Анастасия. Вариант №4

## Цель работы

Получение практических навыков нахождения точечных статистических оценок параметров распределения.

## Основные теоретические положения

**Условные варианты** - преобразованные значения вариант:

$$ u_i = \frac{x_i - C}{h}, $$

где $x_i$ — значение варианты, $C$ — константа (середина интервала), $h$ — ширина интервала.

**Условные моменты** — моменты, вычисленные для условных вариант:

$$ M_k^* = n_i \cdot u_i^k, $$

где $u_i$ — условная варианта $i$-го интервала, $n_i$ — относительная частота $i$-го интервала.

**Контрольная сумма условных моментов:**

$$\sum_{n_i} (u_i + 1)^4 = \sum_{n_i} u_i^4 + 4 \sum_{n_i} u_i^3 + 6 \sum_{n_i} u_i^2 + 4 \sum_{n_i} u_i + 1 $$

**Условные эмпирические моменты** — моменты, вычисленные для условных вариант:

$$ M_k^* = \sum_{i=1}^n n_i \cdot u_i^k, $$

**Центральные эмпирические моменты** — моменты, вычисленные относительно среднего значения:

$$ m_1 = 0 $$

$$ m_2 = (M_2 - M_1^2) \cdot h^2 $$

$$ m_3 = (M_3 - 3 \cdot M_1 \cdot M_2 + 2 \cdot M_1^3) \cdot h^3 $$

$$ m_4 = (M_4 - 4 \cdot M_1 \cdot M_3 + 6 \cdot M_1^2 \cdot M_2 - 3 \cdot M_1^4) \cdot h^4 $$

**Выборочное среднее с помощью стандартной формулы и условных вариант:**

Стандартная формула:

$$ \bar{x} = \frac{1}{n} \sum_{i=1}^n x_i $$

С использованием условных вариант:

$$ \bar{x} = h \cdot M_1^* + C $$

**Дисперсия с помощью стандартной формулы и условных вариант:**

Стандартная формула:

$$ D = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})^2 $$

С использованием условных вариант:

$$ D = m_2 $$

**Выборочное СКО:**

$$ s = \sqrt{D} $$

**Исправленная выборочная дисперсия:**

$$ s^2 = \frac{n}{n-1} \cdot D $$

**Исправленное СКО:**

$$ s = \sqrt{s^2} $$

**Статистическая оценка коэффициентов асимметрии:**

$$ A_s = \frac{m_3}{s^3}, $$

**Эксцесса:**

$$ E = \frac{m_4}{s^4} - 3 $$

**Мода** — значение, которое встречается наиболее часто в выборке:

$$ M_o = L + h \cdot \frac{f_m - f_{m-1}}{(f_m - f_{m-1}) + (f_m - f_{m+1})}, $$

где $L$ — нижняя граница модального интервала, $h$ — ширина интервала, $f_m$ — частота модального интервала, $f_{m-1}$ и $f_{m+1}$ — частоты соседних интервалов.

**Медиана** — значение, которое делит выборку на две равные части:

$$ M_e = L + h \cdot \frac{\frac{n}{2} - F}{f}, $$

где $L$ — нижняя граница медианного интервала, $h$ — ширина интервала, $n$ — общее количество наблюдений, $F$ — накопленная частота до медианного интервала, $f$ — частота медианного интервала.

**Коэффициент вариации**

$$ V = \left( \frac{\sigma}{\bar{x}} \right) \times 100\% $$

где $\sigma$ — стандартное отклонение, $\bar{x}$ — выборочное среднее.

## Постановка задачи

Для заданных выборочных данных вычислить с использованием метода моментов и условных вариант точечные статистические оценки математического ожидания, дисперсии, среднеквадратичного отклонения, асимметрии, эксцесса, моды, медианы и коэффициента вариации исследуемой случайной величины. Полученные результаты содержательно проинтерпретировать.

## Выполнение работы

Перенесем необходимые данные из первой лабораторной работы для выполнения текущей.

Сначала проведем вычисления для столбца E.

In [510]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data = pd.read_csv('/data.csv', header=None, names=['nu', 'E'])

ranked_data = data['E'].sort_values()

min_value = data['E'].min()
max_value = data['E'].max()

bin_edges = 7
h = (max_value - min_value) / bin_edges

intervals = [min_value + i * h for i in range(bin_edges + 1)]

absolute_freq, bin_edges = np.histogram(data['E'], bins=bin_edges)
relative_freq = absolute_freq / len(data)

bin_mid = (bin_edges[:-1] + bin_edges[1:]) / 2

cumulative_absolute_freq = np.cumsum(absolute_freq)
cumulative_relative_freq = np.cumsum(relative_freq)

Вычислим условные варианты.

In [511]:
C = bin_mid[len(bin_mid) // 2]
u = (bin_mid - C) / h

print("Условные варианты:", u)

Условные варианты: [-3. -2. -1.  0.  1.  2.  3.]


Вычислим условные моменты и их контрольную сумму.

In [512]:
n_u1 = relative_freq * u**1
n_u2 = relative_freq * u**2
n_u3 = relative_freq * u**3
n_u4 = relative_freq * u**4

n_u1_4 = relative_freq * (u+1)**4

print("Условные моменты")
print("\n1 порядка:", n_u1)
print("\nСумма:", sum(n_u1))
print("\n2 порядка:", n_u2)
print("\nСумма:", sum(n_u2))
print("\n3 порядка:", n_u3)
print("\nСумма:", sum(n_u3))
print("\n4 порядка:", n_u4)
print("\nСумма:", sum(n_u4))

print("\nКонтрольная сумма условных моментов:", n_u1_4)
print("\nСумма:", sum(n_u1_4))

Условные моменты

1 порядка: [-0.14851485 -0.17821782 -0.16831683  0.          0.23762376  0.23762376
  0.08910891]

Сумма: 0.06930693069306927

2 порядка: [0.44554455 0.35643564 0.16831683 0.         0.23762376 0.47524752
 0.26732673]

Сумма: 1.9504950495049511

3 порядка: [-1.33663366 -0.71287129 -0.16831683  0.          0.23762376  0.95049505
  0.8019802 ]

Сумма: -0.2277227722772286

4 порядка: [4.00990099 1.42574257 0.16831683 0.         0.23762376 1.9009901
 2.40594059]

Сумма: 10.14851485148515

Контрольная сумма условных моментов: [7.92079208e-01 8.91089109e-02 6.54648884e-63 3.06930693e-01
 3.80198020e+00 9.62376238e+00 7.60396040e+00]

Сумма: 22.21782178217822


Оформим вычисления в таблицу:

Таблица 1

|    $ i $   |      $ {x}_i $     |      $ {n}_i $      | $ {u}_i $ |    $ {n}_i{u}_i $   |  $ {n}_i{u}_i^2 $  |   $ {n}_i{u}_i^3 $  |  $ {n}_i{u}_i^4 $ | $ {n}_i({u}_i + 1)^4 $ |
|:----------:|:------------------:|:-------------------:|:---------:|:-------------------:|:------------------:|:-------------------:|:-----------------:|:----------------------:|
|      1     |  73.27857142857142 | 0.04950495049504951 |     -3    |     -0.14851485     |     0.44554455     |     -1.33663366     |     4.00990099    |       7.92079208       |
|      2     |  90.83571428571429 |  0.0891089108910891 |     -2    |     -0.17821782     |     0.35643564     |     -0.71287129     |     1.42574257    |       8.91089109       |
|      3     | 108.39285714285714 | 0.16831683168316833 |     -1    |     -0.16831683     |     0.16831683     |     -0.16831683     |     0.16831683    |       6.54648884       |
|      4     |       125.95       |  0.3069306930693069 |     0     |          0          |          0         |          0          |         0         |       3.06930693       |
|      5     | 143.50714285714287 |  0.2376237623762376 |     1     |      0.23762376     |     0.23762376     |      0.23762376     |     0.23762376    |       3.80198020       |
|      6     | 161.06428571428572 |  0.1188118811881188 |     2     |      0.23762376     |     0.47524752     |      0.95049505     |     1.9009901     |       9.62376238       |
|      7     | 178.62142857142857 |  0.0297029702970297 |     3     |      0.08910891     |     0.26732673     |      0.8019802      |     2.40594059    |       7.60396040       |
| $ \Sigma $ |          -         |         1.0         |     -     | 0.06930693069306927 | 1.9504950495049511 | -0.2277227722772286 | 10.14851485148515 |    22.21782178217822   |

Проверим, чтобы выполнялось равенство:

$$\sum_{n_i} (u_i + 1)^4 = \sum_{n_i} u_i^4 + 4 \sum_{n_i} u_i^3 + 6 \sum_{n_i} u_i^2 + 4 \sum_{n_i} u_i + 1 $$


In [513]:
print(sum(n_u1_4), "=", sum(n_u4) + 4*sum(n_u3) + 6*sum(n_u2) + 4*sum(n_u1) + 1)

22.21782178217822 = 22.217821782178216


Вычислим условные и центральные эмпирические моменты.

In [514]:
M_1 = sum(n_u1)
M_2 = sum(n_u2)
M_3 = sum(n_u3)
M_4 = sum(n_u4)

m_1 = 0
m_2 = (M_2 - M_1**2)*h**2
m_3 = (M_3 - 3*M_1*M_2 + 2*M_1**3)*h**3
m_4 = (M_4 - 4*M_1*M_3 + 6*M_1**2*M_2 - 3*M_1**4)*h**4

print("Условные эмпирические моменты:", M_1, M_2, M_3, M_4)
print("\nЦентральные эмпирические моменты:", m_1, m_2, m_3, m_4)

Условные эмпирические моменты: 0.06930693069306927 1.9504950495049511 -0.2277227722772286 10.14851485148515

Центральные эмпирические моменты: 0 599.7657886281659 -3423.6900386872635 975646.30887796


Оформим вычисления в таблицу:

Таблица 2

| $ k $ |   $ \bar{M}^*_k $   |    $ \bar{m}_k $    |
|:-----:|:-------------------:|:-------------------:|
|   1   | 0.06930693069306927 |          0          |
|   2   |  1.9504950495049511 |  599.7657886281659  |
|   3   | -0.2277227722772286 | -3423.6900386872635 |
|   4   |  10.14851485148515  |   975646.30887796   |

Вычислим выборочные среднее и дисперсию с помощью стандартной формулы и условных вариант, а также вычислим выборочное СКО.

In [515]:
x_avg_b1 = np.average(bin_mid, weights=relative_freq)
D_b1 = np.average((bin_mid - x_avg_b1) ** 2, weights=relative_freq)

x_avg_b2 = M_1*h + C
D_b2 = m_2

sigma_b1 = np.sqrt(D_b1)
sigma_b2 = np.sqrt(D_b2)

print("Выборочное среднее с помощью стандартной формулы и условных вариант соответсвенно:", x_avg_b1, x_avg_b2)
print("\nВыборочная дисперсия с помощью стандартной формулы и условных вариант соответсвенно:", D_b1, D_b2)
print("\nВыборочное СКО с помощью стандартной формулы и условных вариант соответсвенно:", sigma_b1, sigma_b2)

Выборочное среднее с помощью стандартной формулы и условных вариант соответсвенно: 127.16683168316833 127.16683168316833

Выборочная дисперсия с помощью стандартной формулы и условных вариант соответсвенно: 599.7657886281656 599.7657886281659

Выборочное СКО с помощью стандартной формулы и условных вариант соответсвенно: 24.490116141581804 24.490116141581808


Вычислим исправленные выборочную дисперсию и СКО. Сравним данные оценки со смещёнными оценками дисперсии и СКО.

In [516]:
s_2 = len(data['E']) / (len(data['E']) - 1) * D_b2
s = np.sqrt(s_2)

print("Исправленная выборочная дисперсия:", s_2)
print("\nИсправленное СКО:", s)

Исправленная выборочная дисперсия: 605.7634465144475

Исправленное СКО: 24.61226211697022


Выводы: разница между оценками небольшая (5.99 и 0.12 соотвественно), это говорит о том, что выборка достаточно большая, поэтому поправка на n−1 не сильно влияет на результат.

Найдем статистическую оценку коэффициентов асимметрии и эксцессу.

In [517]:
A_s = m_3 / s**3
E = m_4 / s**4 - 3

print("Статистическая оценка коэффициента асимметрии:", A_s)
print("\nСтатистическая оценка коэффициента эксцесса:", E)

Статистическая оценка коэффициента асимметрии: -0.22963593182537934

Статистическая оценка коэффициента эксцесса: -0.34119626987276774


Выводы: отрицательное значение коэффициента ассиметрии указывает на левую асимметрию (левостороннее смещение), то есть данные слегка смещены влево, но незначительно.

Отрицательное значение эксцессы указывает на плосковершинное распределение, то есть данные распределены более равномерно, чем в нормальном распределении, но отклонение незначительно.

Вычислим моду, медиану и коэффициент вариации заданного распределения.

In [518]:
n = len(data['E'])
i = np.where(cumulative_absolute_freq >= n / 2)[0][0]
L = intervals[i]
F = cumulative_absolute_freq[i - 1] if i > 0 else 0
f = absolute_freq[i]
M_e = L + h * ((n / 2 - F) / f)

M_o = 3 * M_e - 2 * x_avg_b2

V = (sigma_b2 / x_avg_b2) * 100

print("Мода:", M_o)
print("\nМедиана:", M_e)
print("\nКоэффициент вариации:", V)

Мода: 130.3126499977187

Медиана: 128.21543778801845

Коэффициент вариации: 19.258257689865285


Выводы: мода немного больше медианы, что указывает на слабое смещение распределения вправо.

Коэффициент вариации 19.26% указывает на умеренный разброс данных, они не слишком сильно отклоняются от среднего значения, но и не слишком сконцентрированы вокруг него.

Проведем аналогичные вычисления для столбца nu.

In [519]:
ranked_data = data['nu'].sort_values()

min_value = data['nu'].min()
max_value = data['nu'].max()

bin_edges = 7
h = (max_value - min_value) / bin_edges

intervals = [min_value + i * h for i in range(bin_edges + 1)]

absolute_freq, bin_edges = np.histogram(data['nu'], bins=bin_edges)
relative_freq = absolute_freq / len(data)

bin_mid = (bin_edges[:-1] + bin_edges[1:]) / 2

cumulative_absolute_freq = np.cumsum(absolute_freq)
cumulative_relative_freq = np.cumsum(relative_freq)

Вычислим условные варианты.

In [520]:
C = bin_mid[len(bin_mid) // 2]
u = (bin_mid - C) / h

print("Условные варианты:", u)

Условные варианты: [-3. -2. -1.  0.  1.  2.  3.]


Вычислим условные моменты и их контрольную сумму.

In [521]:
n_u1 = relative_freq * u**1
n_u2 = relative_freq * u**2
n_u3 = relative_freq * u**3
n_u4 = relative_freq * u**4

n_u1_4 = relative_freq * (u+1)**4

print("Условные моменты")
print("\n1 порядка:", n_u1)
print("\nСумма:", sum(n_u1))
print("\n2 порядка:", n_u2)
print("\nСумма:", sum(n_u2))
print("\n3 порядка:", n_u3)
print("\nСумма:", sum(n_u3))
print("\n4 порядка:", n_u4)
print("\nСумма:", sum(n_u4))

print("\nКонтрольная сумма условных моментов:", n_u1_4)
print("\nСумма:", sum(n_u1_4))

Условные моменты

1 порядка: [-0.26732673 -0.23762376 -0.22772277  0.          0.21782178  0.13861386
  0.08910891]

Сумма: -0.28712871287128716

2 порядка: [0.8019802  0.47524752 0.22772277 0.         0.21782178 0.27722772
 0.26732673]

Сумма: 2.267326732673267

3 порядка: [-2.40594059 -0.95049505 -0.22772277  0.          0.21782178  0.55445545
  0.8019802 ]

Сумма: -2.00990099009901

4 порядка: [7.21782178 1.9009901  0.22772277 0.         0.21782178 1.10891089
 2.40594059]

Сумма: 13.07920792079208

Контрольная сумма условных моментов: [1.42574257 0.11881188 0.         0.24752475 3.48514851 5.61386139
 7.6039604 ]

Сумма: 18.495049504950494


Оформим вычисления в таблицу:

Таблица 1

|    $ i $   | $ {x}_i $ |      $ {n}_i $      | $ {u}_i $ |    $ {n}_i{u}_i $    |  $ {n}_i{u}_i^2 $ |  $ {n}_i{u}_i^3 $ |  $ {n}_i{u}_i^4 $ | $ {n}_i({u}_i + 1)^4 $ |
|:----------:|:---------:|:-------------------:|:---------:|:--------------------:|:-----------------:|:-----------------:|:-----------------:|:----------------------:|
|      1     |   339.5   |  0.0891089108910891 |     -3    |      -0.26732673     |     0.8019802     |    -2.40594059    |     7.21782178    |       1.42574257       |
|      2     |   378.5   |  0.1188118811881188 |     -2    |      -0.23762376     |     0.47524752    |    -0.95049505    |     1.9009901     |       0.11881188       |
|      3     |   417.5   | 0.22772277227722773 |     -1    |      -0.22772277     |     0.22772277    |    -0.22772277    |     0.22772277    |            0           |
|      4     |   456.5   | 0.24752475247524752 |     0     |           0          |         0         |         0         |         0         |       0.24752475       |
|      5     |   495.5   | 0.21782178217821782 |     1     |      0.21782178      |     0.21782178    |     0.21782178    |     0.21782178    |       3.48514851       |
|      6     |   534.5   | 0.06930693069306931 |     2     |      0.13861386      |     0.27722772    |     0.55445545    |     1.10891089    |       5.61386139       |
|      7     |   573.5   |  0.0297029702970297 |     3     |      0.08910891      |     0.26732673    |     0.8019802     |     2.40594059    |        7.6039604       |
| $ \Sigma $ |     -     |         1.0         |     -     | -0.28712871287128716 | 2.267326732673267 | -2.00990099009901 | 13.07920792079208 |   18.495049504950494   |

Проверим, чтобы выполнялось равенство:

$$\sum_{n_i} (u_i + 1)^4 = \sum_{n_i} u_i^4 + 4 \sum_{n_i} u_i^3 + 6 \sum_{n_i} u_i^2 + 4 \sum_{n_i} u_i + 1 $$


In [522]:
print(sum(n_u1_4), "=", sum(n_u4) + 4*sum(n_u3) + 6*sum(n_u2) + 4*sum(n_u1) + 1)

18.495049504950494 = 18.495049504950494


Вычислим условные и центральные эмпирические моменты.

In [523]:
M_1 = sum(n_u1)
M_2 = sum(n_u2)
M_3 = sum(n_u3)
M_4 = sum(n_u4)

m_1 = 0
m_2 = (M_2 - M_1**2)*h**2
m_3 = (M_3 - 3*M_1*M_2 + 2*M_1**3)*h**3
m_4 = (M_4 - 4*M_1*M_3 + 6*M_1**2*M_2 - 3*M_1**4)*h**4

print("Условные эмпирические моменты:", M_1, M_2, M_3, M_4)
print("\nЦентральные эмпирические моменты:", m_1, m_2, m_3, m_4)

Условные эмпирические моменты: -0.28712871287128716 2.267326732673267 -2.00990099009901 13.07920792079208

Центральные эмпирические моменты: 0 3323.2083129104985 -6181.076405827033 27465093.37035636


Оформим вычисления в таблицу:

Таблица 2

| $ k $ |    $ \bar{M}^*_k $   |    $ \bar{m}_k $   |
|:-----:|:--------------------:|:------------------:|
|   1   | -0.28712871287128716 |          0         |
|   2   |   2.267326732673267  | 3323.2083129104985 |
|   3   |   -2.00990099009901  | -6181.076405827033 |
|   4   |   13.07920792079208  |  27465093.37035636 |

Вычислим выборочные среднее и дисперсию с помощью стандартной формулы и условных вариант, а также вычислим выборочное СКО.

In [524]:
x_avg_b1 = np.average(bin_mid, weights=relative_freq)
D_b1 = np.average((bin_mid - x_avg_b1) ** 2, weights=relative_freq)

x_avg_b2 = M_1*h + C
D_b2 = m_2

sigma_b1 = np.sqrt(D_b1)
sigma_b2 = np.sqrt(D_b2)

print("Выборочное среднее с помощью стандартной формулы и условных вариант соответсвенно:", x_avg_b1, x_avg_b2)
print("\nВыборочная дисперсия с помощью стандартной формулы и условных вариант соответсвенно:", D_b1, D_b2)
print("\nВыборочное СКО с помощью стандартной формулы и условных вариант соответсвенно:", sigma_b1, sigma_b2)

Выборочное среднее с помощью стандартной формулы и условных вариант соответсвенно: 445.3019801980198 445.3019801980198

Выборочная дисперсия с помощью стандартной формулы и условных вариант соответсвенно: 3323.208312910499 3323.2083129104985

Выборочное СКО с помощью стандартной формулы и условных вариант соответсвенно: 57.647274982521935 57.64727498252193


Вычислим исправленные выборочную дисперсию и СКО. Сравним данные оценки со смещёнными оценками дисперсии и СКО.

In [525]:
s_2 = len(data['nu']) / (len(data['nu']) - 1) * D_b2
s = np.sqrt(s_2)

print("Исправленная выборочная дисперсия:", s_2)
print("\nИсправленное СКО:", s)

Исправленная выборочная дисперсия: 3356.4403960396035

Исправленное СКО: 57.934794347089934


Выводы: разница между оценками небольшая (33.23 и 0.28 соотвественно), это говорит о том, что выборка достаточно большая, поэтому поправка на n−1 не сильно влияет на результат.

Найдем статистическую оценку коэффициентов асимметрии и эксцесса.

In [526]:
A_s = m_3 / s**3
E = m_4 / s**4 - 3

print("Статистическая оценка коэффициента асимметрии:", A_s)
print("\nСтатистическая оценка коэффициента эксцесса:", E)

Статистическая оценка коэффициента асимметрии: -0.03178671902392679

Статистическая оценка коэффициента эксцесса: -0.5620589442581743


Выводы: отрицательное значение коэффициента ассиметрии указывает на левую асимметрию (левостороннее смещение), то есть данные слегка смещены влево, но незначительно.

Отрицательное значение эксцессы указывает на плосковершинное распределение, то есть данные распределены более равномерно, чем в нормальном распределении, но отклонение незначительно.

Вычислим моду, медиану и коэффициент вариации заданного распределения.

In [527]:
n = len(data['nu'])
i = np.where(cumulative_absolute_freq >= n / 2)[0][0]
L = intervals[i]
F = cumulative_absolute_freq[i - 1] if i > 0 else 0
f = absolute_freq[i]
M_e = L + h * ((n / 2 - F) / f)

M_o = 3 * M_e - 2 * x_avg_b2

V = (sigma_b2 / x_avg_b2) * 100

print("Мода:", M_o)
print("\nМедиана:", M_e)
print("\nКоэффициент вариации:", V)

Мода: 450.81603960396046

Медиана: 447.14

Коэффициент вариации: 12.945658799201155


Выводы: мода немного больше медианы, что указывает на слабое смещение распределения вправо.

Коэффициент вариации 12.95% указывает на умеренный разброс данных, они не слишком сильно отклоняются от среднего значения, но и не слишком сконцентрированы вокруг него.

## Выводы

В ходе выполнения лабораторной работы были получены практические навыкы нахождения точечных статистических оценок параметров распределения.

Результаты показали, что данные имеют умеренный разброс и слабую асимметрию. Полученные оценки дисперсии, СКО, моды, медианы, коэффициенты асимметрии и эксцесса позволяют сделать вывод о том, что распределение данных близко к нормальному, но с небольшими отклонениями.