# Основные сведения из теории вероятностей #

Предметом теории вероятностей является математический анализ случайных явлений — эмпирических феноменов, которые (при заданном «комплексе условий») могут быть охарактеризованы тем, что

- для них отсутствует *детерминистическая регулярность* (наблюдения над ними не всегда приводят к одним и тем же исходам)

и в то же самое время

 - они обладают некоторой *статистической регулярностью* (проявляющейся в статистической устойчивости частот).

## Список обозначений ##

$(\Omega, \mathcal{A}, \mathrm{P})$ &mdash; вероятностное пространство ($\Omega$ &mdash; множество исходов, $\mathcal{A}$ &mdash; $\sigma$-алгебра, $\mathrm{P}$ &mdash; вероятностная мера)

$\mathrm{E}X$, $\mathrm{E}(X)$ &mdash; математическое ожидание случайной величины $X$

$\mathrm{D}X$, $\mathrm{D}(X)$ &mdash; дисперсия случайной величины $X$

---

## Вероятностная модель ##

### Множество исходов ###

Рассмотрим некоторый эксперимент, результаты которого описываются конечным числом различных *исходов* $\omega_1, \dots , \omega_N$. Для нас несущественна реальная природа этих исходов, важно лишь то, что их число $N$ конечно.

Исходы $\omega_1, \dots , \omega_N$ будем также называть *элементарными событиями*, а их совокупность

$$ \Omega = \{ \omega_1, \dots , \omega_N \} $$

*пространством элементарных событий* или *пространством исходов*.

Выделение пространства элементарных событий представляет собой первый шаг в формулировании понятия *вероятностной модели* (вероятностной &laquo;теории&raquo;) того или иного эксперимента.

### Алгебра ###

Если рассматривается некоторая система $\mathcal{A}_0$ множеств $A \subseteq \Omega$, то с помощью теоретико-множественных операций $\cup$, $\cap$ и $\setminus$ можно из элементов $\mathcal{A}_0$ построить новую систему множеств, которые также являются событиями. Присоединяя к этим событиям достоверное и невозможное события $\Omega$ и $\varnothing$, получаем систему множеств $\mathcal{A}$, которая является *алгеброй*, т. е. такой системой подмножеств множества $\Omega$, что

1. $\Omega \in \mathcal{A}$,
2. если $A \in \mathcal{A}$, $B \in \mathcal{A}$, то множества $A \cup B$, $A \cap B$, $A \setminus B$ также принадлежат $\mathcal{A}$.

Из сказанного следует, что в качестве систем событий целесообразно рассматривать такие системы множеств, которые являются алгебрами. Именно такие системы событий мы и будем рассматривать далее.

Остановимся на некоторых примерах алгебр событий:
1. $\mathcal{A} = \{ \Omega, \varnothing \}$ &mdash; система, состоящая из $\Omega$ и пустого множества (так называемая тривиальная алгебра);
2. $\mathcal{A} = \{ A, \overline{A}, \Omega, \varnothing \}$ &mdash; система, порожденная событием $A$;
3. $\mathcal{A} = \{ A: A \subseteq \Omega \}$ &mdash; совокупность всех (включая и пустое множество $\varnothing$) подмножеств $\Omega$.

### Вероятностная мера ###

Пока мы сделали два первых шага к построению вероятностной модели эксперимента с конечным числом исходов: выделили пространство исходов $\Omega$ и некоторую систему $\mathcal{A}$ его подмножеств, образующих алгебру и называемых событиями.
Сделаем теперь следующий шаг, а именно припишем каждому элементарному событию (исходу, явлению) $\omega_i \in \Omega$, $i=1, \ldots, N$, некоторый &laquo;вес&raquo;, обозначаемый $p(\omega_i)$ (или $p_i$) и называемый *вероятностью* исхода $\omega_i$, который будем считать удовлетворяющим следующим условиям:

1. $0  \le p(\omega_i) \le 1$ (*неотрицательность*),
2. $p(\omega_1) + \ldots + p(\omega_N) = 1$ (*нормированность*).

Отправляясь от заданных вероятностей $p(\omega_i)$ исходов $\omega_i$ определим *вероятность* $\mathrm{P}(A)$ любого события $A \in \mathcal{A}$ по формуле
$$ \mathrm{P}(A) = \sum_{\{i:\omega_i \in A\}} p(\omega_i). $$

#### Свойства вероятностей ####

1. $\mathrm{P}(\varnothing) = 0$,
1. $\mathrm{P}(\Omega) = 1$,
1. $\mathrm{P}(A \cup B) = \mathrm{P}(A) + \mathrm{P}(B) - \mathrm{P}(A \cap B)$,
1. $\mathrm{P}(\bar{A}) = 1 - P(A)$.

### Вероятностное пространство ###

**Определение 1.** Принято говорить, что &laquo;вероятностное пространство&raquo;

$$ \left( \Omega, \mathcal{A}, \mathrm{P} \right), $$

где $\Omega = {\omega_1, \ldots, \omega_N}$, $\mathcal{A}$ — некоторая алгебра подмножеств $\Omega$ и $\mathrm{P} = \{ \mathrm{P}(A); A \in \mathcal{A} \}$, \
определяет вероятностную модель эксперимента с пространством исходов (элементарных событий) $\Omega$ и алгеброй событий $\mathcal{A}$.

### Замечания ###

При построении вероятностных моделей в конкретных ситуациях выделение пространства элементарных событий $\Omega$ и алгебры событий $\mathcal{A}$, как правило, не является сложной задачей. При этом в элементарной теории вероятностей в качестве алгебры $\mathcal{A}$ обычно берется алгебра *всех* подмножеств $\Omega$. Труднее обстоит дело с вопросом о том, как задавать вероятности элементарных событий. В сущности, ответ на этот вопрос лежит вне рамок теории вероятностей, и мы его подробно не рассматриваем, считая, что основной нашей задачей является не вопрос о том, как приписывать исходам те или иные вероятности, а *вычисление* вероятностей
сложных событий (событий из $\mathcal{A}$) по вероятностям элементарных событий.

С математической точки зрения ясно, что в случае конечного пространства элементарных событий с помощью приписывания исходам $\omega_1, \ldots , \omega_N$ неотрицательных чисел $p_1, \ldots , p_N$, удовлетворяющих условию $p_1 + \ldots + p_N = 1$, мы получаем все мыслимые (конечные) вероятностные пространства.

*Правильность* же назначенных для конкретной ситуации значений $p_1, \ldots , p_N$ может быть до известной степени проверена с помощью рассматриваемого далее *закона больших чисел*, согласно которому в длинных сериях &laquo;независимых&raquo; экспериментов, происходящих при одинаковых условиях, частоты появления элементарных событий &laquo;близки&raquo; к их вероятностям.

---

## Некоторые классические модели и распределения ##

### Биномиальное распределение ###

*TODO*

### Мультиномиальное распределение ###

*TODO*

### Многомерное гипергеометрическое распределение ###

*TODO*

### Задача (оценка максимального правдоподобия) ###

Пусть $N$ &mdash; размер некоторой популяции, который требуется оценить &laquo;минимальными средствами&raquo; без простого пересчета всех элементов этой совокупности.
Подобного рода вопрос интересен, например, при оценке числа жителей в той или иной стране, городе и т. д.

В 1786 г. Лаплас для оценки числа $N$ жителей во Франции предложил следующий метод.
Выберем некоторое число, скажем, $M$, элементов популяции и пометим их. Затем возвратим их в основную совокупность и предположим, что они «хорошо перемешаны» с немаркированными элементами.
После этого возьмем из &laquo;перемешанной&raquo; популяции $n$ элементов.
Пусть среди них $X$ элементов оказались маркированными.

Cоответствующая вероятность $\mathrm{P}_{N,M;n} \{X =m\}$ задается формулой гипергеометрического распределения:
$$
    \mathrm{P}_{N,M;n} \{X =m\} = \frac{C_M^m C_{N−M}^{n−m}}{C_N^n}.
$$

Считая $M$, $n$ и $m$ фиксированными, найдем максимум этой вероятности по $N$, т. е. найдем &laquo;наиболее правдоподобный&raquo; объём всей популяции, приводящий (при заданных $M$ и $n$) к тому, что число $X$ маркированных элементов оказалось равным $m$.

Можно показать, что наиболее правдоподобное значение (обозначим его $\hat{N}$) определяется формулой ($[\cdot]$ &mdash; целая часть):
$$ \hat{N} = [Mnm^{-1}]. $$

Так полученная оценка $\hat{N}$ для $N$ называется оценкой *максимального правдоподобия*.

---

## Условная вероятность. Независимость ##

### Понятие условной вероятности ###

Понятие *вероятности* события дает нам возможность ответить на вопрос такого типа: если урна содержит $M$ шаров, из которых $M_1$ шаров белого цвета и $M_2$ — чёрного, то какова вероятность $\mathrm{P}(A)$ события $A$, состоящего в том, что вытащенный шар имеет белый цвет?  
В случае классического подхода $\mathrm{P}(A) =M_1/M$.

Вводимое ниже понятие условной вероятности позволяет отвечать на вопрос следующего типа: какова вероятность того, что второй извлеченный шар белого цвета (событие $B$), при условии, что первый шар также имеет белый цвет (событие $A$)? Рассматривается выбор без возвращения.

Естественно здесь рассуждать так: если первый извлеченный шар имел белый цвет, то перед вторым извлечением мы имеем урну с $M-1$ шаром, из которых $M_1 - 1$ шаров имеют белый цвет, а $M_2$ — чёрный; поэтому интуитивно представляется целесообразным считать, что интересующая нас (условная) вероятность равна $\dfrac{M_1-1}{M-1}$.

Дадим теперь определение условной вероятности, согласующееся с интуитивными представлениями о ней.

**Определение 2.** Условной вероятностью события $B$ при условии события $A$ с $\mathrm{P}(A)>0$ (обозначение: $\mathrm{P}(B|A)$ ) называется величина
$$ \dfrac{\mathrm{P}(AB)}{\mathrm{P}(A)}. $$

### Свойства условных вероятностей ###

1. $\mathrm{P}(A|A) = 1$,
1. $\mathrm{P}(\varnothing|A) = 0$,
1. $\mathrm{P}(B|A) = 1$, $B \supseteq A$,
1. $\mathrm{P}(B_1 + B_2|A) = \mathrm{P}(B_1|A) + \mathrm{P}(B_2|A)$.

> **Пример 1.** Рассмотрим семьи, имеющие двух детей. Спрашивается, какова вероятность того, что в семье оба ребенка мальчики, в предположении, что:
1. старший ребенок &mdash; мальчик;
2. по крайней мере один из детей &mdash; мальчик?

### Формула полной вероятности ###

Рассмотрим *полную группу несовмстимых событий* $\mathcal{D} = \{A_1, \dots, A_n\}$. Имеет место **формула полной вероятности**
$$ \mathrm{P}(B) = \sum_{i=1}^n \mathrm{P}(B|A_i) \mathrm{P}(A_i). $$

> **Пример 2.** В урне имеется $M$ шаров, среди которых $m$ «счастливых». Спрашивается, какова вероятность извлечь на втором шаге «счастливый» шар (предполагается, что качество первого извлеченного шара неизвестно).

Справедлива **формула умножения вероятностей**:
$$ \mathrm{P}(AB) = \mathrm{P}(B|A) \mathrm{P}(A). $$

По индукции:
$$ \mathrm{P}(A_1, \dots, A_n) = \mathrm{P}(A_1) \mathrm{P}(A_2|A_1) \dots \mathrm{P}(A_n|A_1 \dots A_{n-1}). $$

### Независимость ###

**Определение 3.**
События $A$ и $B$ называются *независимыми* или *статистически независимыми* (относительно вероятности $\mathrm{P}$), если
$$ \mathrm{P}(AB) = \mathrm{P}(A) \cdot \mathrm{P}(B). $$

### Теорема Байеса ###

Из формул $\mathrm{P}(B|A) = \dfrac{\mathrm{P}(AB)}{\mathrm{P}(A)}$ и $\mathrm{P}(A|B) = \dfrac{\mathrm{P}(AB)}{\mathrm{P}(B)}$ получаем **формулу Байеса**:
$$ \mathrm{P}(A|B) = \dfrac{\mathrm{P}(B|A) \mathrm{P}(A)}{\mathrm{P}(B)}. $$

Если события $A_1, \dots, A_n$ образубт разбиение $\Omega$, то из формул полной вероятности и Байеса следует **теорема Байеса**:
$$ \mathrm{P}(A_i|B) = \frac{\mathrm{P}(B|A_i) \mathrm{P}(A_i)}{\sum_{j=1}^{n} \mathrm{P}(A_j) \mathrm{P}(B|A_j)}. $$

В статистических применениях события $A_1, \dots, A_n$ образующие «полную группу событий» ($A_1 + \dots + A_n = \Omega$), часто называют «гипотезами», а $\mathrm{P}(A_i)$ – *априорной* вероятностью гипотезы $A_i$.
Условная вероятность $\mathrm{P}(A_i|B)$ трактуется как *апостериорная* вероятность гипотезы $A_i$ после наступления события $B$.

> **Пример 3.**
Пусть в урне находятся две монеты: $A_1$ – симметричная монета с вероятностью «герба» Г, равной 1/2, и $A_2$ – несимметричная монета с вероятностью «герба» Г, равной 1/3. Наудачу вынимается и подбрасывается одна из монет. Предположим, что выпал герб. Спрашивается, какова вероятность того, что выбранная монета симметрична.

---

## Случайные величины и их характеристики ##

### Математическое ожидание ###

**Определение 4.** Всякая числовая функция $\xi = \xi(\omega)$, определённая на конечном пространстве элементарных событий $\Omega$, будет называться *случайной величиной*.

Рассмотрим некоторую случайную величину $\xi = \xi(\omega)$, принимающую значения $x_i$.
Пусть $A_i = {\omega: \xi=x_i}$  &mdash; случайное событие, а $\mathrm{P}(A_i)$ &mdash; его вероятность.
Дадим определения нескольким характеристикам случайной величины $\xi$.

**Определение 5.** Функция
$$
    F_\xi(x)  = \left\{ \omega: \xi(\omega) \le x \right\}, \quad x \in \mathbb{R}
$$
называется *функцией распределения* случайной величины $\xi$.

**Определение 6.** Функция $f=f_\xi(x)$ называется *плотностью*, если
$$  F_\xi(x) = \int\limits_{-\infty}^{x} f_\xi(y)dy, \quad x \in \mathbb{R}. $$

**Определение 7.** *Математическим ожиданием* случайной величины $\xi = \xi(\omega)$ называется величина
$$
    \mathrm{E}\xi = \sum\limits_{i=1}^\infty x_i \mathrm{P} \left( A_i \right).
$$


Сформулируем основные свойства математического ожидания:
1. Если $\xi \ge 0$, то $\mathrm{E}\xi \ge 0$.
2. $\mathrm{E}(a\xi +b\eta) = a\mathrm{E}\xi +b\mathrm{E}\eta$, $\hspace{0.5em}$ $a$, $b$ &mdash; постоянные.
3. Если $\xi \ge \eta$, то $\mathrm{E}\xi \ge \mathrm{E}\eta$.
4. $|\mathrm{E}\xi| \le \mathrm{E}|\xi|$.
5. Если $\xi$ и $\eta$ независимы, то $\mathrm{E}\xi\eta = \mathrm{E}\xi \cdot \mathrm{E}\eta$.
6. $(\mathrm{E}|\xi\eta|)^2 \le \mathrm{E}\xi^2 \cdot \mathrm{E}\eta^2$ (неравенство Коши&ndash;Буняковского&ndash;Шварца).

### Дисперсия ###

**Определение 7.** *Дисперсией* случайной величины $\xi$ называется величина
$$ \mathrm{D} \xi = \mathrm{E} \left( \xi - \mathrm{E} \xi \right)^2. $$

Величина $\sigma_\xi = +\sqrt{\mathrm{D} \xi}$ называется *стандартным отклонением* значений случайной величины $\xi$ от её среднего значения $\mathrm{E} \xi$.

Свойства дисперсии:
1. Дисперсию случайной величины $\xi$ можно вычислить как разность среднего кавдрата и квадрата среднего
$ \mathrm{D}\xi = \mathrm{E} \xi^2 - \left( \mathrm{E} \xi \right)^2 $.
2. $\mathrm{D}\xi \ge 0$.
3. $\mathrm{D}(a + b\xi) = b^2 \mathrm{D}\xi $, $\hspace{0.5em}$ $a$, $b$ &mdash; постоянные.
4. $\mathrm{D}(\xi + \eta) = \mathrm{E} \left[ (\xi-\mathrm{E}\xi) + (\eta-\mathrm{E}\eta) \right]^2 = \mathrm{D}\xi + \mathrm{D}\eta + 2\mathrm{E}(\xi-\mathrm{E}\xi)(\eta-\mathrm{E}\eta)$

**Определение 8.** Пусть $\xi$ и  $\eta$ &mdash; две случайные величины. Их *ковариацией* называется величина
$$
    \mathrm{cov}(\xi, \eta) = \mathrm{E} (\xi-\mathrm{E}\xi)(\eta-\mathrm{E}\eta).
$$

С учётом введённого обозначения для ковариации находим, что
$$ \mathrm{D}(\xi+\eta) = \mathrm{D}\xi  + \mathrm{D}\eta +  2\mathrm{cov}(\xi, \eta).$$

**Определение 9.** Если $\mathrm{D}\xi > 0$, $\mathrm{D}\eta > 0$, то величина
$$
    \rho(\xi, \eta) = \dfrac{\mathrm{cov}(\xi, \eta)}{\sqrt{\mathrm{D}\xi \cdot \mathrm{D}\eta}} = \dfrac{\mathrm{cov}(\xi, \eta)}{\sigma_\xi \cdot \sigma_\eta}
$$
называется *коэффициентом корреляции* случайных величин $\xi$ и $\eta$.

Нетурдно показать, что если $ \rho(\xi, \eta) = \pm 1$, то величины $\xi$ и $\eta$ линейно зависимы:
$$ \eta =a \xi + b, $$
где $a>0$, если $\rho(\xi, \eta) = 1$, $a<0$, если $\rho(\xi, \eta) = -1$.

Если $\mathrm{cov}\left( \xi, \eta \right) = 0$, то говорят, что случайные величины $\xi$ и $\eta$ *некоррелированы*. \
Если $\xi$ и $\eta$ некоррелированы, то дисперсия суммы $\mathrm{D}(\xi+\eta)$ равна сумме дисперсий:
$$ \mathrm{D}(\xi+\eta) = \mathrm{D}\xi + \mathrm{D}\eta. $$

**Замечание.** Из некоррелированности $\xi$ и $\eta$, вообще говоря, не следует их независимость. Проиллюстрируем этот факт следующим примером.

> **Пример 4.** Пусть случайная величина $\alpha$ принимает значения 0, $\pi/2$ и $\pi$ с вероятностями 1/3. Рассмотрим две случайные величины $\xi = \sin \alpha$ и $\eta = \cos \alpha$. \
Величины $\xi$ и $\eta$ некоррелированы, однако они не только зависимы относительно вероятности, но и *функционально зависимы*: $\xi^2 + \eta^2 = 1$.

### Оптимальная оценка случайных величин###

Рассмотрим две случайные величины $\xi$ и $\eta$. Предположим, что наблюдению подлежит лишь случайная величина $\xi$.
Если величины $\xi$ и $\eta$ коррелированы, то можно ожидать, что знание значений $\xi$ позволит вынести некоторые суждения и о значениях ненаблюдаемой величины $\eta$.

Всякую функцию $f = f(\xi)$ от $\xi$ будем называть *оценкой* для $\eta$.
Будем говорить также, что *оценка* $f^\ast = f^\ast(\xi)$ *оптимальна в среднеквадратическом смысле*, если
$$ \mathrm{E}(\eta − f^\ast(\xi))^2 = \inf_f \mathrm{E}(\eta − f(\xi))^2. $$

Покажем, как найти оптимальную оценку в классе *линейных* оценок $\lambda(\xi) = a + b\xi$.
Для этого рассмотрим функцию $g(a, b) = \mathrm{E}(\eta − (a+b\xi))^2$.
Дифференцируя $g(a, b)$ по $a$ и $b$, получаем
$$
\begin{split}
    \frac{\partial g(a, b)}{\partial a} &= −2 \mathrm{E} \left[ \eta − (a+b\xi) \right], \\
    \frac{\partial g(a, b)}{\partial b} &= −2 \mathrm{E} \left[ (\eta − (a+b\xi))\xi \right],
\end{split}
$$
откуда, приравнивая производные к нулю, находим, что *оптимальная* в среднеквадратическом смысле *линейная* оценка есть $\lambda^\ast (\xi) = a^\ast + b^\ast \xi$, где
$$
    a^\ast = \mathrm{E}\eta − b^\ast\mathrm{E}\xi, \quad b^\ast = \frac{\mathrm{cov}(\xi, \eta)}{\mathrm{D}\xi}.
$$

Иначе говоря,
$$
    \lambda^\ast(\xi) = \mathrm{E}\eta + \frac{\mathrm{cov}(\xi, \eta)}{\mathrm{D}\xi} (\xi - \mathrm{E}\xi).
$$

Величина $\mathrm{E}(\eta − \lambda^\ast(\xi))^2$ называется *среднеквадратической ошибкой* оценивания.
Простой подсчёт показывает, что эта ошибка равна
$$
\Delta^\ast = \mathrm{E}(\eta − \lambda^\ast(\xi))^2 = \mathrm{D}\eta − \frac{\mathrm{cov}^2(\xi, \eta)}{\mathrm{D}\xi} = \mathrm{D}\eta \cdot [1 - \rho^2(\xi, \eta)].
$$

Таким образом, чем больше по модулю коэффициент корреляции $\rho(\xi, \eta)$ между $\xi$ и $\eta$, тем меньше среднеквадратическая ошибка оценивания $\Delta^\ast$. В частности, если $|\rho(\xi, \eta)|=1$, то $\Delta^\ast = 0$. Если же случайные величины $\xi$ и $\eta$ не коррелированы (т. е. $\rho(\xi, \eta)=0$), то $\lambda^\ast(\xi) = \mathrm{E}\eta$. Таким образом, в случае отсутствия корреляции между $\xi$ и $\eta$ лучшей оценкой $\eta$ по $\xi$ является просто $\mathrm{E}\eta$.

---

## Литература

1. Ширяев А.Н. Вероятность — 1. М.: МЦНМО, 2007


## Что сделать: ##
- добавить свойства мат. ожидания и дисперсии: сумма, афинные преобразования - **done**
