In [2]:
import itertools
import math
import numpy as np
from numpy.random import choice
import sympy

# Случайные величины и их характеристики

**Задача.**

Есть мешок со 100 неразличимыми на ощупь монетками. 20 из этих монеток серебряные, 10 — золотые, а ещё 3 — платиновые. Остальные монетки медные.

Какова вероятность, что наугад вытащенная монетка окажется медной?

In [1]:
1 - (3 + 10 + 20) / 100

0.6699999999999999

Можно по-другому.

Зададим случайную величину $\xi$. Пусть значение 1 отвечает медной монетке, значение 2 — серебряной, значение 3 — золотой, значение 4 — платиновой.

$$
\begin{array}{c|c|c|c|c}
\xi & 1 & 2 & 3 & 4 \\
\hline \mathbb P & x & \frac {20}{100} & \frac{10}{100} & \frac{3}{100}
\end{array}
$$

$$
\mathbb P (\xi = 1) = 1 - \mathbb P(\xi \neq 1) = 1 - \sum\limits_{i=2}^{4} = 1 - \left( \frac {20}{100} + \frac{10}{100} + \frac{3}{100}\right)=\frac {67}{100}
$$

In [3]:
x = sympy.Symbol('x')
sympy.solvers.solve((20/100 + 10/100 + 3/100 + x) - 1, x)

[0.670000000000000]

**Задача.**

Есть лотерейные билеты номиналами: 0, 100, 1000 и 5000. Вероятность вытащить билет без выигрыша равна 0.9. Вероятность вытащить 5000 в 2 раза меньше вероятности вытащить 1000, и в 7 раз меньше вероятности вытащить 100.

Итого, мы можем составить таблицу распределения:

$$
\begin{array}{c|c|c|c|c}
\xi & 0 & 100 & 1000 & 5000 \\
\hline \mathbb P & 0.9 & 7x & 2x & x
\end{array}
$$

$$
\sum\limits_{i\in\{0, 100, 1000, 5000\}} \mathbb P(\xi=i)=0.9 + 7x + 2x + x=1\quad\Rightarrow\quad x=\frac{1}{100}
$$

In [None]:
sympy.solvers.solve((0.9 + x + x * 2 + x * 7) - 1, x)

[0.0100000000000000]

**Задача.**

Пусть теперь распределение некоторой случайной величины задано следующим образом:

$$
\begin{array}{c|c|c|c}
\xi & 1 & 2 & 3  \\
\hline \mathbb P & 2\varphi^2  + 0.5 \varphi & 4 \varphi & 6  \varphi ^ 2
\end{array}
$$

Чему равно $\varphi$?
$$
\sum\limits_{i=1}^3 \mathbb P(\xi=i)=2\varphi^2  + 0.5 \varphi + 4 \varphi + 6  \varphi ^ 2= 8\varphi ^ 2 + 4.5\varphi = 1\quad \Rightarrow\quad 8\varphi ^ 2 + 4.5\varphi - 1 = 0
$$

In [4]:
sympy.solvers.solve((2 * x ** 2 + 0.5 * x + 4 * x + 6 * x ** 2) - 1, x)

[-0.733026009212530, 0.170526009212530]

Важно понимать, что на роль реального значения $\varphi$ может претендовать только второе значение.

**Задача.**

Подбрасывается 3 честных монетки. Необходимо составить таблицу совместного распределения случайных величин: $\xi$ — число выпавших орлов, $\eta$ — число выпавших решек.

In [5]:
t, res_table = 100000, np.zeros((4, 4))
for _ in range(t):
    experiment = choice(['O', 'P'], 3)
    eagle_count = (experiment == 'O').sum()
    tail_count = (experiment == 'P').sum()
    res_table[eagle_count][tail_count] += 1
res_table / t

array([[0.     , 0.     , 0.     , 0.12571],
       [0.     , 0.     , 0.37559, 0.     ],
       [0.     , 0.37341, 0.     , 0.     ],
       [0.12529, 0.     , 0.     , 0.     ]])

Для альтернативного решения этой задачи можно вспомнить, как мы строили таблицу распределения одной величины $\xi$:

$$\mathbb P(\xi = i) = \frac{C^i_3}{2^3}$$

Тогда $\mathbb P(\xi = 0)=\mathbb P(\xi = 3)=\frac 1 8 = 0.125$ и $\mathbb P(\xi = 1) = \mathbb P(\xi = 2) = \frac 3 8 = 0.375$.

То же самое стоит на диагонали таблицы совместного распределения, потому что $\xi + \eta = 3$.

**Задача.**

Дана таблица совместного распределения двух случайных величин. Составить таблицы их маргинальных распределений.
$$
\begin{array}{c|c|c|c}
\eta\backslash\xi & 1 & 2 & 3  \\
\hline  4 & 0 & 0 & 0.4 \\
\hline  5 & 0.05 & 0.05 & 0.1 \\
\hline  6 & 0.3 & 0.05 & 0.05 \\
\end{array}
$$


In [None]:
joint_distribution = np.array([
    [0, 0, 0.4],
    [0.05, 0.05, 0.1],
    [0.3, 0.05, 0.05]
])

possible_indices_probability = list(itertools.product(range(len(joint_distribution)), range(len(joint_distribution[0]))))

print(possible_indices_probability)

t = 1000000

xi_marginal, eta_marginal = np.zeros(3), np.zeros(3)

for _ in range(t):
    choice_index = choice(list(range(len(possible_indices_probability))), 1, p=joint_distribution.reshape((-1)))[0]
    indices = possible_indices_probability[choice_index]
    xi_marginal[indices[0]] += 1
    eta_marginal[indices[1]] += 1

xi_marginal /= t
eta_marginal /= t

eta_marginal, xi_marginal

[(0, 0), (0, 1), (0, 2), (1, 0), (1, 1), (1, 2), (2, 0), (2, 1), (2, 2)]


(array([0.349658, 0.10023 , 0.550112]), array([0.40076 , 0.199601, 0.399639]))

Если подсчитывать суммой по столбцам и строкам:

In [None]:
eta_marginal, xi_marginal = np.zeros(3), np.zeros(3)
for i in range(len(joint_distribution)):
    for j in range(len(joint_distribution[i])):
        eta_marginal[i] += joint_distribution[i, j]
        xi_marginal[j] += joint_distribution[i, j]

xi_marginal, eta_marginal

(array([0.35, 0.1 , 0.55]), array([0.4, 0.2, 0.4]))

$$
\begin{array}{c|c|c|c}
\xi & 1 & 2 & 3  \\
\hline \mathbb P & 0.35 & 0.1 & 0.55
\end{array}
$$

$$
\begin{array}{c|c|c|c}
\eta & 4 & 5 & 6  \\
\hline \mathbb P & 0.4 & 0.2 & 0.4
\end{array}
$$

Эквивалентный подсчет для более продвинутых пользователей:

In [None]:
def get_marginal(joint_dist):
    return joint_dist.sum(axis=0), joint_dist.sum(axis=1)

get_marginal(joint_distribution)

(array([0.35, 0.1 , 0.55]), array([0.4, 0.2, 0.4]))

**Задача.**

Являются ли данные случайные величины зависимыми?

$$
\begin{array}{  c | c | c | c | c  }
\eta \backslash \xi & -4 & -2 & 0 & 3  \\ \hline
2 & 0.02 & 0.02 & 0.06 & 0.1 \\ \hline
3 & 0.03 & 0.03 & 0.09 & 0.15 \\ \hline
5 & 0.02 & 0.02 & 0.06 & 0.1 \\ \hline
10 & 0.03 & 0.03 & 0.09 & 0.15
\end{array}
$$

Построим маргинальные распределения для $\xi$ и $\eta$ и посмотрим, будет ли справедлива независимость: 
$$
\forall \xi_i \in\xi, \ \eta_j\in\eta \ \ \Rightarrow \ \ \mathbb P(\xi =\xi_i, \ \eta=\eta_j) = \mathbb P(\xi = \xi_i)\cdot \mathbb P(\eta = \eta_j) 
$$



In [None]:
joint_distribution = np.array([
    [0.02, 0.02, 0.06, 0.1],
    [0.03, 0.03, 0.09, 0.15],
    [0.02, 0.02, 0.06, 0.1],
    [0.03, 0.03, 0.09, 0.15]
])

xi_marginal, eta_marginal = get_marginal(joint_distribution)

xi_marginal, eta_marginal

(array([0.1, 0.1, 0.3, 0.5]), array([0.2, 0.3, 0.2, 0.3]))

$$
\begin{array}{c|c|c|c}
\xi & -4 & -2 & 0 & 3  \\
\hline \mathbb P & 0.1 & 0.1 & 0.3 & 0.5
\end{array}
$$

$$
\begin{array}{c|c|c|c}
\eta & 2 & 3 & 5 & 10  \\
\hline \mathbb P & 0.2 & 0.3 & 0.2 & 0.3
\end{array}
$$

In [None]:
def are_vals_independent(joint_dist):
    xi_marg, eta_marg  = get_marginal(joint_dist)

    are_independent = True
    for i in range(len(joint_dist)):
        for j in range(len(joint_dist[i])):
            if not math.isclose(joint_dist[i, j], eta_marg[i] * xi_marg[j]):
                are_independent = False
                break
        if not are_independent:
            break

    return are_independent

are_vals_independent(joint_distribution)

True

**Задача.**

Распределение случайной величины задано следующей таблицей:

$$
\begin{array}{  c | c | c | c | c| c | c| c | c  }
\xi & -4 & -2 & 0 & 3 & 4 & 6 & 7 & 9  \\ \hline
\mathbb{P} & 0.1 & 0.15 & 0.05 & 0.15 & 0.1 & 0.05 & 0.25 & 0.15
\end{array}
$$

Найти математическое ожидание $\mathbb E \xi$ и медиану $a$.

In [6]:
distribution = np.array([
    [-4, -2, 0, 3, 4, 6, 7, 9],
    [0.1, 0.15, 0.05, 0.15, 0.1, 0.05, 0.25, 0.15]
])

t = 1000000

experiment = choice(distribution[0], t, p=distribution[1])
experiment.mean(), np.median(experiment)

(3.547113, 4.0)

А теперь посчитаем точно:

In [None]:
var_values, probability_values = distribution[0], distribution[1]

def get_median(var_vals, prob_vals):
    left_i, right_i = 0, len(prob_vals) - 1

    while prob_vals[:left_i + 1].sum() < 0.5:
        left_i += 1
    while prob_vals[right_i - 1:].sum() < 0.5:
        right_i -= 1

    return var_vals[left_i:right_i].mean()


def get_expected_value(var_vals, prob_vals):
    return np.dot(var_vals, prob_vals)

get_expected_value(var_values, probability_values), get_median(var_values, probability_values)

(3.55, 4.0)

**Задача.**

Дана таблица совместного распределения случайных величин $\xi$ и $\eta$:

\begin{array}{  c | c | c | c | c  }
\eta \backslash \xi & -4 & -2 & 0 & 3  \\ \hline
2 & 0.02 & 0.02 & 0.06 & 0.1 \\ \hline
3 & 0.03 & 0.03 & 0.09 & 0.15 \\ \hline
5 & 0.02 & 0.02 & 0.06 & 0.1 \\ \hline
10 & 0.03 & 0.03 & 0.09 & 0.15
\end{array}

Найти $\mathbb E (\xi\eta)$.

Моделируем, как среднее арифметическое результатов экспериментов:

In [None]:
xi_values = np.array([-4, -2, 0, 3])
eta_values = np.array([2, 3, 5, 10])
joint_distribution = np.array([
    [0.02, 0.02, 0.06, 0.1],
    [0.03, 0.03, 0.09, 0.15],
    [0.02, 0.02, 0.06, 0.1],
    [0.03, 0.03, 0.09, 0.15]
])

possible_choice_indices = list(itertools.product(range(len(xi_values)), range(len(eta_values))))

experiment_values = []

t = 1000000
for _ in range(t):
    choice_index = choice(list(range(len(possible_choice_indices))), 1, p=joint_distribution.reshape((-1)))[0]
    choice_indices = possible_choice_indices[choice_index]
    experiment_values.append(
        eta_values[choice_indices[0]] * xi_values[choice_indices[1]]
    )

np.mean(experiment_values)

4.771104

А для точного значения вспомним, что мы выше узнали: случайные величины, заданные этой таблицей распределения, независимы, поэтому $\mathbb E(\xi\eta)=\mathbb E\xi \mathbb E\eta$.

In [None]:
xi_marginal, eta_marginal = get_marginal(joint_distribution)

eta_marginal, xi_marginal

(array([0.2, 0.3, 0.2, 0.3]), array([0.1, 0.1, 0.3, 0.5]))

In [None]:
xi_expected_value = get_expected_value(xi_values, xi_marginal)
eta_expected_value = get_expected_value(eta_values, eta_marginal)

xi_expected_value, eta_expected_value, xi_expected_value * eta_expected_value

(0.8999999999999999, 5.3, 4.77)

**Задача.**

Распределение случайной величины задано следующей таблицей:

$$
\begin{array}{  c | c | c | c | c  }
\xi & -4 & -2 & 0 & 3  \\ \hline
\mathbb{P} & 0.1 & 0.1 & 0.3 & 0.5
\end{array}
$$

Найти $\mathbb D\xi$ и $\sigma_\xi$.

Вспомним, что $\sigma_\xi^2=\mathbb D\xi$. Оцениваем дисперсию:

$$
\mathbb D \xi = \mathbb E(\xi - \mathbb E \xi)^2 \ \quad \ S^2 = \frac{1}{n}\sum\limits(x_i - \overline X)^2, \quad \overline{X} = \frac{1}{n}\sum x_i.
$$

In [None]:
distribution, var_values = np.array([0.1, 0.1, 0.3, 0.5]), np.array([-4, -2, 0, 3])

t = 100000000
experiment = choice(var_values, t, p=distribution)
dispersion = sum((experiment.mean() - experiment) ** 2) /t
sigma = dispersion ** 0.5

dispersion, sigma

(5.689695222744592, 2.385308202883768)

Для точных значений:

$$
\mathbb D \xi = \mathbb E \left(\xi^2\right) - \left(\mathbb E \xi\right)^2
$$

In [None]:
def get_dispersion(var_vals, dist_vals):
    expected_value, expected_square_value = get_expected_value(var_vals, dist_vals), get_expected_value(var_vals ** 2, dist_vals)
    return expected_square_value - expected_value ** 2

dispersion = get_dispersion(var_values, distribution)
sigma = dispersion ** 0.5

dispersion, sigma

(5.69, 2.3853720883753127)

**Задача.**

Случайные величины заданы таблицей совместного распределения:

$$
\begin{array}{  c | c | c | c  }
\eta \backslash \xi & 2 & 3 & 5  \\ \hline
-1 & 0.1 & 0.3 & 0.2 \\ \hline
1 & 0.1 & 0.05 & 0 \\ \hline
4 & 0 & 0.15 & 0.1
\end{array}
$$

Определить ковариацию $\operatorname{cov}(\xi, \eta)$ и коэффициент корреляции $\rho(\xi, \eta)$.

Вспомним, что $\operatorname{cov}(\xi, \eta) = \mathbb E(\xi\eta) - \mathbb E\xi\mathbb E\eta$ и $\rho(\xi, \eta)=\dfrac{\operatorname{cov}(\xi, \eta)}{\sqrt {\mathbb D_\xi}\sqrt{\mathbb D_{\eta}}}$.

In [None]:
xi_values, eta_values = np.array([2, 3, 5]), np.array([-1, 1, 4])
joint_distribution = np.array([
    [0.1, 0.3, 0.2],
    [0.1, 0.05, 0.],
    [0., 0.15, 0.1]
])

# Просто моделируем совместное распределение и запоминаем результаты

possible_choice_indices = list(itertools.product(range(len(xi_values)), range(len(eta_values))))

t = 1000000
experiment_indices = choice(list(range(len(possible_choice_indices))), t, p=joint_distribution.reshape((-1)))

eta_experiment_values, xi_experiment_values = [], []

for k in experiment_indices:
    indices = possible_choice_indices[k]
    eta_experiment_values.append(eta_values[indices[0]])
    xi_experiment_values.append(xi_values[indices[1]])

xi_experiment_values, eta_experiment_values = np.array(xi_experiment_values), np.array(eta_experiment_values)

# Считаем маргинальные распределения

def get_marginal_by_frequency(experiment_vals, var_vals, t):
    marginal = []
    unique, counts = np.unique(experiment_vals, return_counts=True)
    counter = dict(zip(unique, counts))
    for val in var_vals:
        marginal.append(counter[val])
    marginal = np.array(marginal) / t
    return marginal

xi_marginal = get_marginal_by_frequency(xi_experiment_values, xi_values, t)
eta_marginal = get_marginal_by_frequency(eta_experiment_values, eta_values, t)
xi_dot_eta_values = np.unique(xi_experiment_values * eta_experiment_values)
xi_dot_eta_marginal = get_marginal_by_frequency(xi_experiment_values * eta_experiment_values, xi_dot_eta_values, t)

# А теперь всё остальное

def get_covariance(first_var_vals, second_var_vals, dot_var_vals, first_var_dist, second_var_dist, dot_var_dist):
    first_var_expected_value = get_expected_value(first_var_vals, first_var_dist)
    second_var_expected_value = get_expected_value(second_var_vals, second_var_dist)
    return get_expected_value(dot_var_vals, dot_var_dist) - get_expected_value(first_var_vals, first_var_dist) * get_expected_value(second_var_vals, second_var_dist)

covariance = get_covariance(xi_values, eta_values, xi_dot_eta_values, xi_marginal, eta_marginal, xi_dot_eta_marginal)

xi_dispersion, eta_dispersion = get_dispersion(xi_values, xi_marginal), get_dispersion(eta_values, eta_marginal)
rho = covariance / (xi_dispersion * eta_dispersion) ** 0.5

covariance, rho

(0.1817771282580003, 0.07740052674036657)

Можно вычислить напрямую:

In [None]:
xi_dot_eta_probability = dict()

for i in range(len(joint_distribution)):
    for j in range(len(joint_distribution[i])):
        key = xi_values[j] * eta_values[i]
        if key not in xi_dot_eta_probability.keys():
            xi_dot_eta_probability[key] = 0
        xi_dot_eta_probability[key] += joint_distribution[i, j]

xi_dot_eta_values = np.array(list(xi_dot_eta_probability.keys()))
xi_dot_eta_marginal = np.array(list(xi_dot_eta_probability.values()))

xi_marginal, eta_marginal = get_marginal(joint_distribution)

covariance = get_covariance(xi_values, eta_values, xi_dot_eta_values, xi_marginal, eta_marginal, xi_dot_eta_marginal)

xi_dispersion, eta_dispersion = get_dispersion(xi_values, xi_marginal), get_dispersion(eta_values, eta_marginal)
rho = covariance / (xi_dispersion * eta_dispersion) ** 0.5

covariance, rho

(0.18000000000000038, 0.07664850422701923)

# Простейшие случайные величины. Схемы Бернулли

**Задача.**

Юный волшебник успешно справляется с заклинанием «дисперсиус» с вероятностью $p=0.75$. Определите математическое ожидание и дисперсию случайной величины $\xi=S_n$, показывающей количество успехов в серии из $n=10$ попыток колдовства.

Определите математическое ожидание $\mathbb E\xi$ и дисперсию $\mathbb D \xi$.


In [None]:
t, n, p = 1000000, 10, 0.75
marginal = np.zeros(11)

for _ in range(t):
    res = choice([0, 1], n, p=[1 - p, p]).sum() # 1 — заклинание удалось, 0 — не удалось
    marginal[res] += 1

marginal /= t

values = np.arange(0, 11)

get_expected_value(values, marginal), get_dispersion(values, marginal)

(7.498506, 1.8759997679640108)

На самом деле, перед нами распределение Бернулли c $p=0.75$ ($q=1-p=0.25$) и $n=10$, поэтому:

$$
\mathbb E \xi = np\quad\quad \mathbb D\xi = npq
$$

In [None]:
q = 1 - p

n * p, n * p * q

(7.5, 1.875)

**Задача.**

Вредный учитель заставил юного волшебника оттачивать заклинание «дисперсиус». Вероятность ошибки при одном испытании равна $p=0.02$. Определите вероятность того, что в серии из $n=100$ испытаний юный маг ошибется не более трех раз.

In [None]:
t, n, p = 100000, 100, 0.02
q = 1 - p
marginal = np.zeros(n + 1)

for _ in range(t):
    res = choice([0, 1], n, p=[q, p]).sum()
    marginal[res] += 1

marginal /= t

sum([marginal[i] for i in range(0, 4)])

0.85963

Формула Бернулли:

In [None]:
from scipy.stats import binom
answer = 0
for i in range(4):
  answer += binom.pmf(i, n, p)
answer

0.8589615633982948

Теорема Пуассона с погрешностью:

$$
\lim \limits_{n\to\infty}\mathbb P(B(n, k))=\dfrac{\lambda ^ k}{k!}e^{-\lambda}
$$

$$
A\subset \mathbb N \cup \{0\}\quad \lambda = np\quad\Rightarrow\quad \left|\sum\limits_{k\in A}B(n, k) - \dfrac{\lambda ^ k}{k!}e^{-\lambda}\right|<\min(p,np^2)
$$

In [None]:
def poisson(p, n, k):
    l = n * p
    return l ** k * math.exp(-l) / math.factorial(k)

prob = sum([poisson(p, n, i) for i in range(0, 4)])
prob_delta = min(p, n * p ** 2)
[prob - prob_delta, prob + prob_delta], prob_delta

([0.8371234604985471, 0.8771234604985472], 0.02)

Локальная теорема Муавра-Лапласа для распределения Бернулли:

$$x=\dfrac{k - np}{\sqrt{npq}}\quad k \in \mathbb N \cup \{0\}\quad\Rightarrow\quad \mathbb P(S_n=k)\sim \dfrac{1}{\sqrt{npq}}\cdot\dfrac{1}{\sqrt{2\pi}}e^{-x^2/2}, \quad n\to\infty $$

In [None]:
def local_m_l(p, n, k):
    q = 1 - p
    x = (k - n * p) / math.sqrt(n * p * q)
    return math.exp(- x ** 2 / 2) / math.sqrt(n * p * q * 2 * math.pi)

sum([local_m_l(p, n, i) for i in range(0, 4)])

0.8292649748488814

**Задача.**

В некоторой очень безответственной почтовой компании вероятность потерять посылку при одном отправлении равна $p=0.13$. Используя интегральную теорему Муавра-Лапласа, найдите вероятность потери не более 2650 посылок в серии из $n=20000$ отправлений и оцените погрешность.

In [None]:
t, n, p = 10000, 20000, 0.13
q = 1 - p
marginal = np.zeros(n + 1)

for _ in range(t):
    res = choice([0, 1], n, p=[q, p]).sum() # 1 — потеряли посылку, 0 — посылка дошла
    marginal[res] += 1

marginal /= t

sum([marginal[i] for i in range(0, 2650 + 1)])

0.8564999999999999

In [None]:
answer = 0
for i in range(2651):
  answer += binom.pmf(i, n, p)
answer

0.855766092271415

Интегральная теорема Муавра-Лапласа для распределения Бернулли и погрешность:

$$
\lim_{n\to\infty} \mathbb P\left(a< \dfrac{S_n - np}{\sqrt{npq}} <b\right) = \Phi(b) - \Phi(a)\quad\quad \Phi(x) = \dfrac 1 {\sqrt{2\pi}} \int\limits^x_{-\infty} e^{-x^2/2} dx
$$

$$
\left| \mathbb P\left(a< \dfrac{S_n - np}{\sqrt{npq}} <b\right) - \dfrac 1 {\sqrt{2\pi}} \int\limits^a_{b} e^{-x^2/2} dx \right| < \dfrac {1}{pq\sqrt{n}}
$$

In [None]:
def integral_m_l(p, n, k):
    q = 1 - p
    a = (k - n * p) / math.sqrt(n * p * q)
    return float(
        sympy.Integral(sympy.exp(- x ** 2 / 2) / sympy.sqrt(2 * sympy.pi), (x, -math.inf, a)).doit()
    )

integral_m_l(p, n, 2650) - integral_m_l(p, n, 0), 1 / (p*q*math.sqrt(n))

(0.8534379413201014, 0.06252049347361162)

In [None]:
from scipy.stats import norm
n = 20000
p = 0.13
q = 1 - p
norm.cdf((2650 - n*p) / math.sqrt(n * p * q)) - norm.cdf((0 - n*p) / math.sqrt(n * p * q))

0.8534379413201012