# Лабораторная 7

## 1. Немного ТВ и scipy.stats

### 1.1 ***дискретные*** и ***непрерывные*** случайные величины.

В курсе ТВ наиболее популярными являются ***дискретные*** и ***непрерывные*** случайные величины.

***Дискретная*** случайная величина - это случайная величина, множество значений которой конечно или счётно.

***Непрерывная*** случайная величина - это случайная величина, возможные значения которой непрерывно заполняют некоторый интервал (конечный или бесконечный).

Распределение случайно величины $𝜉$ называется ***дискретным***, если $𝜉$ может
принимать конечное или счётное число значений $x_1, x_2, x_3 ... $ такие, что
 * $p_k = P(𝜉 = k) > 0$
 *
 $\sum_{k=1}p_k = 1
$

Непрерывные распределения задаются ***функцией распределения f(x)*** и при этом:
*  $∀𝑥 -> 𝑓(𝑥) ≥ 0$
* $\int^{∞}_{-∞}{f(x)}{\rm d}x = 1$


При этом
* ***матожидание дискретной случайной величины***: $Eξ = \sum_{k=1}p_k x_k$
* ***матожидание непрерывной случайной величины*** $Eξ = \int^{∞}_{-∞}{f(x)x}{\rm d}x$
* ***дисперсия дискретной случайной величины***: $Dξ = \sum_{k=1}p_k (x_k - Eξ)^2$
* ***дисперсия непрерывной случайной величины*** $Dξ = \int^{∞}_{-∞}{f(x)(x - Eξ)^2}{\rm d}x$

Также может быть полезна формула $Dξ = Eξ^2 - (Eξ)^2$

Рассмотрим пример, моделирующий игральный кубик.  

Пусть дана случайная величина $ξ$, принимающая следующие значения $x_1 = 1, x_2 = 2, x_3 = 3, x_4 = 4, x_5 = 5, x_6 = 6$ с вероятностями $p_1 = p_2 = p_3 = p_4 = p_5 = p_6 = \frac{1}{6}$.

Найдём $Eξ$

$Eξ = x_1 p_1 + x_2 p_2 + x_3 p_3 + x_4 p_4 + x_5 p_5 +  x_6 p_6 = \frac{1}{6} + \frac{2}{6} + \frac{3}{6} + \frac{4}{6} + \frac{5}{6} + \frac{6}{6} = 3.5$

Теперь найдём $Dξ = (1-3.5)^2 ⋅\frac{1}{6} + (2-3.5)^2 ⋅\frac{1}{6} + (3-3.5)^2 ⋅\frac{1}{6} + (4-3.5)^2 ⋅\frac{1}{6} + (5-3.5)^2 ⋅\frac{1}{6} + (6-3.5)^2 ⋅\frac{1}{6} = 2.92$

### 1.2 Распределение Бернулли

Случайная величина $ξ$ имеет распределение Бернулли, если она принимает всего два значения: 1 и 0 с вероятностями $p$ и $1 - p$.

Ярким примером такой величины является монетка(1 - выпал орёл, 0 - решка).  

При этом $Eξ = p$, а $Dξ = p(1-p)$

Пусть X - некоторое распределение из ***scipy.stats***, parametrs - параметры распределения, тогда

* X(parametrs).rvs(size=N) — генерация выборки размера  N
* X(parametrs).cdf(x) — значение функции распределения в точке  x
* X(parametrs).ppf(q) —  q-квантиль
* X(parametrs).mean() — математическое ожидание;
* X(parametrs).median() — медиана
* X(parametrs).var() — дисперсия
* для дискретной величины X(parametrs).pmf(k) - значение плотности в точке  k (вероятность, с которой случайная величина принимает значение k)
* для непрерывной величины X(parametrs).pdf(x) - значение плотности в точке x

In [None]:
from scipy.stats import bernoulli
b = bernoulli(p=0.3).rvs(size=15) # сгенерируем выборку размера N=15 из распределения Бернулли с параметром p = 0.3
b

array([0, 1, 0, 0, 1, 1, 1, 0, 1, 0, 1, 0, 0, 1, 0])

In [None]:
bernoulli(p=0.3).mean() # расчитаем матожидание данной случайной величины
bernoulli(p=0.3).var() # расчитаем дисперсию данной случайной величины

0.21

### Задача 1

Биномиальное распределение: Пусть $x_1, x_2, ... x_n $ — конечная последовательность независимых случайных величин, имеющих одинаковое распределение Бернулли с параметром p. Тогда случайная величин ***$Y = x_1 + x_2 + ... x_n$*** - имеет биномиальное распределение с параметрами ***n*** и ***p***.

1.1 Сгенерируйте выборку размера N=15 из биноминального распределения, с параметром p = 0.2 и n = 20.

1.2 Расчитайте матожидание и дисперсию случайной величины соответствующей данному распределению, используя scipy.stats.

1.3 Расчитайте матожидание и дисперсию случайной величины соответствующей данному распределению, НЕ используя scipy.stats(здесь могут пригодиться формулы для матожидания и дисперсии выведенные выше).

1.4 Постройте функцию вероятности для случайной величины, соответствующей биноминальному распределению с параметрами p = 0.2 и n = 20. ***Функцию вероятности дискретной случайной величины*** - график, отображающий с какой вероятностью случайная величина принимает конкретные значения.

### Задача 2

Теперь с помощью scipy.stats можем решить несколько задач, используя биноманальное распределение :

2.1 Вероятность поражения стрелком мишени равна 0,5. Найти вероятность
того, что при 8 выстрелах мишень будет поражена 5 раз.

2.2 Частица пролетает последовательно мимо 5 счетчиков. Каждый счетчик
независимо от остальных отмечает ее пролѐт с вероятностью 0,8. Частица считается
зарегистрированной, если она отмечена не менее чем 2 счетчиками. Найти вероятность
зарегистрировать частицу.

2.3 90% панелей, изготавливаемых на железобетонном заводе – высшего
сорта. Случайная величина X – число панелей высшего сорта из четырех, взятых наугад. Постройте функцию вероятности дискретной случайной величины X.


### Задача 3

Случайная величина X имеет экспоненциальное распределение с параметром $\lambda > 0$, если её плотность вероятности имеет вид f(x) =
$$
\left\{
\begin{array}{c}
\lambda e^{-\lambda x}, x >= 0 \\
0, x < 0 \\
\end{array}
\right.
$$

1.1 Сгенерируем выборку размера N=20 из экспоненциального распределения, с параметром $\lambda = 2$.

1.2 Расчитайте матожидание и дисперсию случайной величины соответствующей данному распределению, используя scipy.stats.

1.3 Постройте плотность вероятности,соответствующей экспоненциальному распределению с параметром $\lambda = 2$.

## 2. Центральная предельная теорема

Пусть $X1, X2, ... X_n$  есть последовательность независимых одинаково распределённых случайных величин, имеющих конечное математическое ожидание $μ$ и дисперсию $σ$. Пусть также $S_n = \sum_{i=1}^{n}x_i$.

Тогда верно следующее:
$\frac{S_n - μ}{σ\sqrt{n}} -> N(0,1)$ по распределению при $n - > ∞$

$N(0,1)$ - это нормальное распределение с нулевым математическим ожиданием и стандартным отклонением, равным единице.

### Задача 4

Выберите непрерывное распределение (например экспоненциальное, но только не нормальное!). Сгенерируйте из него выборку объёма 500, постройте гистограмму сгенерированной выборки.

Для нескольких значений n = (5, 10, 20, 50) сгенерируйте 500 выборок объёма n и постройте гистограммы распределений их выборочных средних.

***Выборочное среднее*** - сумма всех элементов выборки делённое на их число. В формуле выше - это ***$S_n$***.

Используя информацию о среднем и дисперсии исходного распределения рассчитайте значения параметров нормальных распределений, которыми, согласно центральной предельной теореме, приближается распределение выборочных средних.

Сделайте вывод о том, как приближается распределение выборочных средних
к нормальному с ростом n.

## 3. Статистические гипотезы и их проверка

***Статистическая гипотеза*** - это некоторое предположение о свойствах генеральной совокупности, которое необходимо проверить.

К примеру, нам необходимо проверить сильно ли отличается среднее время, проведённое на сайте пользователем, после обновления сайта от среднего времени до обновления.

План проверки гипотез следующий:

* формулируется основная гипотеза $H0$ и альтернативная гипотеза $H1$.
* выбирается статистический критерий, с помощью которого будет проверяться гипотеза.
* задаётся значение уровня значимости
* находятся границы области принятия гипотезы
* делается вывод о принятии или отвержении основной гипотезы

Теперь рассмотрим подробно каждый шаг.

В примере, приведённом выше

***Основная гипотеза H0***: среднее время, проведённое на сайте пользователем, после обновления сайта отличается незначительно от среднего времени до обновления.

***Альтернативная гипотеза H1***: среднее время, проведённое на сайте пользователем, после обновления сайта отличается значительно от среднего времени до обновления.

Статистический критерий - статистическая характеристика выборки, вычисляемая по некоторому математическому соотношению (формуле) на основе данных, имеющихся в выборке.

* ***Ошибка первого рода*** - отвержение основной гипотезы при том, что она верна.

* ***Ошибка второго рода*** - принятие основной гипотезы при том, что гипотеза ложна.

* ***Уровень значимости α*** - это вероятность ошибки первого рода.

* ***Уровень доверия p*** - вероятность принятия верной гипотезы.

Теперь рассмотрим некоторые популярные критерии и научимся работать с ними.

### 3.1 t-критерий Стьюдента

t-критерий Стьюдента используется для определения статистической значимости различий средних величин.

Для применения t-критерия Стьюдента необходимо, чтобы исходные данные имели нормальное распределение.

Для изучения эффективности нового препарата были выбраны две группы пациентов(34 и 40 человек). Первой группе дают препарат, а второй дают плацебо. После этого было проведено измерение уровня гемоглобина крови.

* гипотеза $H_0$ - разницы нет
* гипотеза $H_1$ - разница есть

Нужно определить есть ли разница на уровне значимости p = 0.05

На основании этого было посчитано среднее значение каждой из групп
* $\overline{x} = 115.4$ г/л
* $\overline{y} = 103.7$ г/л,

Расчитаем t-критерий в данном случае по формуле: $t = \frac{|M1 - M2|}{{\sigma_{1-2}}}$

***${\sigma_{1-2}}$*** - стандартная ошибка разности средних арифметических.

${\sigma_{1-2}} = \sqrt{\frac{∑_i(\overline{x} - x_i)^2 + ∑_i(\overline{y} - y_i)^2}{n_1 + n_2 - n} ·(\frac{1}{n_1} + \frac{1}{n_2})}$

В данной задаче $σ_{1-2} = 2,59$, а значение t-критерия оказалось равным 4,51.

Находим число степеней свободы: $f = (n1 + n2) - 2$. В данном случае $f = 72$.

Сравниваем полученное значение t-критерия Стьюдента 4,51 с критическим при р=0,05 значением, указанным в таблице: https://statpsy.ru/t-student/t-test-tablica/ 1.993

Так как 4.51 < 1.993, то отвергаем нулевую гипотезу, а это значит, что различия есть!

### Задача 5

Есть две группы школьников(10 и 12 человек). Первая группа занималась по новой(эксперементальной методике), вторая группа по старой. Результаты экзаменов двух групп следуюшие:

***группа 1***: 10, 9, 8, 9, 7, 4, 7, 8, 9, 8

***группа 2***: 9, 8, 8, 9, 6, 4, 3, 8, 9, 10, 10, 9

Необходимо выяснить, используя t-критерий Стьюдента, есть ли различий в двух методиках, на уровне значимости p = 0.01