# Методы математической статистики

## Основы прикладной статистики

$\blacktriangleright$ Основные понятия математической статистики 

Математическая статистика -- наука, изучающая закономерности в явлениях, которые носят случайный характер, но являются массовыми. При этом данные закономерности исследуются на основе конечного числа наблюдений.

Методы математической статистики -- это методы теории вероятностей, математического анализа и дифференциальных уравнений, специальные методы, используемые для исследования массовых совокупностей.

Все методы математической статистики можно подразделить на параметрические методы, основанные на использовании знаний о вероятностной модели, и непараметрические методы, когда априорных представлений о виде модели нет или она не используется.  

Основными задачами математической статистики являются:
1. Оценка неизвестной функции распределения и функции плотности вероятности.
2. Проверка статистических гипотез.
3. Оценка неизвестных параметров распределения.
4. Исследование статистических зависимостей.

Генеральной совокупностью называется вся мыслимая совокупность исследуемых объектов. 

Выборочной совокупностью называется совокупность объектов, отобранная для непосредственного изучения. Выборочную совокупность также называют выборкой. 

Объемом совокупности (генеральной или выборочной) называется число ее объектов.

При этом различают:
1. Метод сплошных наблюдений: исследуется вся генеральная совокупность. Однако на практике данный метод, как правило, требует больших затрат и является достаточно трудоемким, поэтому чаще прибегают к выборочному методу.
2. Выборочный метод исследуется только выборочная совокупность и на основании этого выборочного обследования делается вывод о всей генеральной совокупности.

Схема статистического исследования включает два основных этапа:
1. Выделяется совокупность объектов и исследуемый признак.
2. Исследуемый признак выражается числовой величиной.

Пусть посредством независимых испытаний, проводимых в одинаковых условиях, получены некоторые значения исследуемого признака. Расположим эти значения в порядке возрастания $x_1 \leqslant x_2 \leqslant  ... \leqslant x_n$.

Последовательность наблюдаемых значений $x_1, x_2, \ldots, x_n$, записанных в возрастающем порядке, называется дискретным вариационным рядом, а сами значения -- вариантами. 

Значение $x_i$ иногда называют порядковой  статистикой. Индекс $i$ указывает на порядковый номер элемента в вариационном ряду. 

Выборочный $\alpha$-квантиль или выборочный квантиль порядка $\alpha$, $\alpha \in (0,\,1)$, есть статистика, равная элементу вариационного ряда с номером $[m\alpha+1]$ (целая часть от $m\alpha+1$).

Частотой $n_i$ называется число, показывающее, сколько раз встречается вариант $x_i$. 

Относительной частотой $\omega_i$ называется отношение соответствующей частоты к общему объему выборки, то есть 
$$
\omega_i = \dfrac{n_i}{n}.
$$ 

Пусть дан некоторый вариационный ряд $x_1, x_2, \ldots, x_n$ и соответствующие частоты $n_1, n_2, \ldots, n_n$ вариант. 

Выборочной средней называется величина 
$$
\bar{x} = \dfrac{n_1\cdot x_1+ n_2\cdot x_2 + \ldots + n_n\cdot x_n}{n_1+n_2+\ldots + n_n}
$$

Выборочной дисперсией называется величина 
$$
\bar{D} = \dfrac{( x_1 - \bar{x})^2n_1+ ( x_2 - \bar{x})^2n_2 + \ldots + (x_n - \bar{x})^2n_n}{n_1+n_2+\ldots + n_n}
$$

Выборочным средним квадратическим отклонением  называется арифметический квадратный корень из дисперсии.

Медианой вариационного ряда называется значение признака, приходящееся на середину ранжированного ряда наблюдений.  

Модой вариационного ряда называется вариант, которому соответствует наибольшая частота.

Существуют также и другие выборочные статистики, например, коэффициент 
вариации, коэффициент Лексиса, асимметрия. Сложность в их использовании заключается в интерпретации.


Прикладная статистика -- наука о методах обработки статистических данных.

По типу решаемых задач прикладная статистика делится на разделы:
- описание данных;
- оценивание;
- проверка гипотез.

В прикладной статистике для описания данных часто используются случайные величины.

Под **случайной величиной** понимается величина, которая в результате опыта со случайным исходом принимает то или иное значение. 

Возможные значения случайной величины образуют множество $\Theta$, которое принято называть множеством возможных значений случайной величины.

Примеры случайных величин: доход клиента банка.

Замечание: Случайные величины принято обозначать большими буквами, а их возможные значения -- маленькими. Например, случайная величина $X$ имеет значения $x_1, x_2, \ldots, x_n$.

В зависимости от множества значений $\Theta$ принято выделять следующие типы случайных величин:
- дискретные --- если множество значений $\Theta$ счетно или конечно (элементы $\Theta$ можно перенумеровать);
- непрерывные --- если множество значений $\Theta$ несчетно. 

Примеры: число очков на грани игральной кости -- дискретная случайная величина; скорость, доход --- непрерывная случайная величина.

Случайная величина описывается законом распределения.

Законом распределения случайной величины называется любое правило 
(таблица, функция), позволяющее находить вероятности всевозможных событий, связанных со случайной величиной (например, вероятность того, что она примет какое-то значение или попадет на какой-то интервал). 

Наиболее простой способ задания закона распределения -- табличный.
$$
X: \begin{array}{|c|c|c|c|}
x_1 & x_2 & \ldots & x_n \\
\hline
p_1 & p_2 & \ldots & p_n
\end{array}
$$

Наиболее общей формой закона распределения, пригодной для всех случайных величин (как дискретных, так и непрерывных), является функция распределения. 

Функцией распределения случайной величины $X$ называется вероятность того, что она примет значение меньшее, чем заданное $x$:
$$
F(x) = P(X<x).
$$

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18V7-Ow-7KpVqdAp_LbXEUcTITNB__Gv2' width="1000" height="250" />
<figcaption>Функции распределения</figcaption></center>
</figure>

Свойства функции распределения:

1) $F(x)$ -- неубывающая функция своего аргумента, т. е. при $x_2 > x_1$ $F(x_2)\geqslant F(x_1)$.

2) $F(-\infty) = 0. $ 

3) $F(+\infty) = 1. $

Замечание: Случайная величина $X$ является непрерывной, если ее функция распределения не только непрерывна в любой точке, но и дифференцируема всюду, 
кроме, может быть, отдельных точек, где она терпит излом.

Плотностью распределения (или плотностью вероятности иногда просто плотностью) непрерывной случайной величины $X$ в точке $x$ называется производная ее 
функции распределения в этой точке.
$$
f(x) = F'(x) = \dfrac{\partial}{\partial x} F(x).
$$

Плотность распределения $f(x)$, как и функция распределения $F(x)$, является одной из форм закона распределения; в отличие от функции распределения, эта 
форма не универсальна: она существует только для непрерывных случайных величин.

График плотности распределения $f(x)$ называется кривой распределения. 

<figure>
<center>
<img src='https://drive.google.com/uc?export=view&id=18kC1epoABq6u_qKdhaTgr7FXfJkwwQKd' width="700" height="400" />
<figcaption>Плотность нормального распределения</figcaption></center>
</figure>

Числовые параметры случайной величины, характеризующие существенные черты распределения, принято называть числовыми характеристиками случайной величины. 

Среди числовых характеристик случайных величин выделяют: параметры положения, масштабные параметры и параметры формы.

Параметр положения $\gamma$ определяет положение области значений распределения на оси абсцисс (оси х). Параметрами положения являются: математическое ожидание, мода и медиана.

Математическое ожидание случайной величины определяется следующим образом:
- для дискретных с.в. 
$$
E(X) = \sum\limits_{i=1}^{n}x_ip_i
$$ 
- для непрерывных с.в. 
$$
E(X) = \int\limits_{-\infty}^{+\infty}xf(x)\,dx
$$ 

Масштабный параметр $\beta$ определяет масштаб (или единицы) измерения значений в диапазоне распределения. 

Параметр формы $\alpha$ в отличие от параметра положения и масштабного  
параметра определяет основную форму распределения в общем семействе  
распределений.

Литература:
1. Вентцель Е.С. Теория вероятностей и ее инженерные приложения /   Вентцель Е.С., Л.А. Овчаров. --- 2-е изд., стер. --- М.: Высш. шк., 2000. --- 480 с.
2. Кобзарь А.И. Прикладная математическая статистика. Для инженеров и научных работников. --- М.: ФИЗМАТЛИТ, 2006. --- 816 с.




 




















## Корреляционный анализ

## Регрессионный анализ